OpenAI Mengurangkan Kos Inferens ChatGPT Melebihi 50% untuk Pengguna Tetamu

OpenAI telah mencapai kejayaan besar dalam kecekapan operasi dengan mengurangkan kos inferens untuk pengguna tetamu ChatGPT sebanyak lebih daripada separuh. Pengurangan ketara dalam perbelanjaan menjalankan model AI sedia ada ini menandakan langkah kritikal dalam menjadikan penggunaan AI berskala besar lebih mampan.

Mengoptimumkan Pengalaman Tetamu

Menurut laporan daripada The Information, jurutera OpenAI telah berjaya melaksanakan pengoptimuman baharu yang menyasarkan pelawat yang menggunakan ChatGPT tanpa akaun secara khusus. Walaupun pengguna tetamu pada masa ini berinteraksi dengan set ciri yang terhad berbanding pelanggan Plus atau Team, impaknya terhadap keperluan perkakasan adalah sangat mendalam.

Kecekapan teknikal yang diperoleh melalui pengoptimuman ini telah mengurangkan jumlah GPU Nvidia yang diperlukan untuk melayani pengguna khusus ini kepada hanya beberapa ratus unit sahaja. Walaupun metodologi tepat yang digunakan untuk mencapai keuntungan ini kekal sebagai hak milik syarikat, skala pengurangan tersebut menunjukkan lonjakan besar dalam cara OpenAI menguruskan beban kerja inferens yang memerlukan pengkomputeran tinggi.

Perlumbaan untuk Kecekapan Inferens

Perkembangan ini berlaku pada saat penting bagi industri ini, memandangkan kos pengkomputeran yang tinggi kekal sebagai kekangan utama untuk menskalakan perkhidmatan AI. OpenAI bukan satu-satunya pemain yang memberi tumpuan kepada "sempadan kecekapan" ini. Baru-baru ini, DeepSeek telah mengeluarkan kaedah sumber terbuka baharu yang mampu mempercepatkan permintaan inferens sebanyak 60% hingga 85%.

Apabila persaingan semakin sengit, tumpuan beralih daripada sekadar membina model yang lebih besar kepada membina cara yang lebih pintar dan kos efektif untuk menjalankannya. Bagi makmal AI, setiap mata peratusan yang dijimatkan dalam kos inferens diterjemahkan secara langsung kepada "ruang bernafas"—sumber tambahan yang boleh dialihkan untuk melatih model generasi seterusnya, menambah baik kependaman (latency) respons, atau meningkatkan margin keuntungan.

Impak kepada Landskap AI yang Lebih Luas

Walaupun pengoptimuman ini buat masa ini hanya terpakai kepada subset produk yang terhad, ia menandakan peralihan yang lebih luas dalam strategi AI. Memandangkan pembinaan pusat data bergelut untuk mengimbangi permintaan pengkomputeran yang eksponen, pengoptimuman pada peringkat perisian menjadi sama penting dengan penskalaan perkakasan.

Jika OpenAI berjaya memindahkan teknik penjimatan inferens ini daripada antara muka tetamu ke produk ChatGPT skala penuh, ia boleh mengubah ekonomi AI pengguna secara fundamental. Bagi pembangun dan pengasas, ini menonjolkan trend yang semakin berkembang: syarikat AI yang paling berjaya bukan sekadar syarikat yang mempunyai parameter terbanyak, tetapi syarikat yang mempunyai saluran (pipeline) inferens yang paling cekap.

Ringkasan Utama

  • Pengurangan Kos Besar: OpenAI dilaporkan telah mengurangkan kos inferens untuk pengguna ChatGPT tanpa akaun sebanyak lebih daripada 50% melalui pengoptimuman kejuruteraan baharu.
  • Kecekapan Perkakasan: Pengoptimuman tersebut telah mengurangkan keperluan penggunaan GPU Nvidia untuk melayani pengguna tetamu secara drastik kepada hanya beberapa ratus unit sahaja.
  • Trend Industri: Memandangkan bekalan perkakasan kekal sebagai kekangan, industri kini beralih ke arah lonjakan kelajuan inferens, menyusuli langkah kecekapan serupa daripada pesaing seperti DeepSeek.