Penanda Aras AA-Briefcase Baharu Mendedahkan Kesukaran AI dalam Kerja Pengetahuan Sebenar
Walaupun Model Bahasa Besar (LLM) kelihatan semakin berkemampuan dalam penilaian standard, data baharu menunjukkan bahawa ia masih belum bersedia secara asas untuk menghadapi kerumitan persekitaran profesional. Satu penanda aras yang revolusioner telah mendedahkan jurang besar antara pengecaman corak dengan pelaksanaan sebenar kerja pengetahuan yang melibatkan pelbagai langkah dan padat dengan maklumat.
Penanda Aras AA-Briefcase: Mensimulasikan Dunia Sebenar
Penanda aras AI tradisional sering bergantung kepada soalan terpencil atau set data statik yang tidak mencerminkan realiti pejabat moden yang kompleks. Untuk merapatkan jurang ini, Artificial Analysis memperkenalkan penanda aras AA-Briefcase, sebuah rangka kerja ujian rapi yang direka untuk mensimulasikan projek jangka panjang selama beberapa minggu.
Berbanding arahan (prompt) yang mudah, model-model ini ditugaskan untuk menavigasi beribu-ribu fail sumber yang terfragmentasi, termasuk rantaian Slack, rantaian e-mel, transkrip mesyuarat, dan eksport data berskala besar. Ini memerlukan model untuk melakukan penaakulan tahap tinggi, mensintesis titik data yang berbeza, dan mengekalkan konteks merentasi set data tidak berstruktur yang besar—kemahiran yang penting bagi penganalisis, peguam, dan jurutera.
Mengapa Model Terunggul Pun Gagal
Keputusan ini amat membimbangkan bagi mereka yang mengharapkan autonomi AI yang segera di tempat kerja. Malah model paling canggih yang diuji, Claude Fable 5 daripada Anthropic, hanya berjaya menyelesaikan sepenuhnya 3 peratus daripada tugasan yang diberikan. Penanda aras tersebut mendedahkan bahawa bagi 31 daripada 91 tugasan khusus, tidak ada satu pun model yang mampu melepasi kadar kelulusan 50 peratus.
Penyelidikan ini menonjolkan peralihan yang menarik dalam cara AI gagal apabila tahap kecerdasan meningkat. Model yang "lebih lemah" cenderung mengalami kegagalan yang "ketara": ia tersangkut pada pelaksanaan asas, terlepas fail yang relevan sepenuhnya, atau menghasilkan output yang secara asasnya tidak boleh digunakan. Sebaliknya, model yang "lebih kuat" seperti Claude Fable 5 gagal dengan lebih "senyap". Model tahap tinggi ini memenuhi keperluan yang jelas dan mengekalkan format profesional, tetapi mereka gagal dalam ujian penaakulan yang lebih mendalam kerana terlepas butiran halus yang hanya boleh ditemui dengan menyatukan maklumat daripada pelbagai sumber yang tidak berkaitan.
Ketidaksamaan Ekonomi dalam Prestasi AI
Selain daripada kekurangan teknikal, penanda aras ini menonjolkan jurang ekonomi yang besar dalam landskap LLM semasa. Terdapat jurang harga yang sangat ketara antara model-model apabila diukur melalui kos penyelesaian tugasan.
Kecekapan sangat berbeza: DeepSeek V4 Flash menyelesaikan tugasan pada kos kira-kira $0.04 setiap tugasan, manakala Claude Fable 5 yang berprestasi tinggi menelan kos melebihi $31 setiap tugasan. Ini mewakili perbezaan harga sebanyak 800 kali ganda, yang memberikan cabaran besar kepada pengasas dan perusahaan yang cuba menskalakan ejen AI tanpa menanggung kos operasi yang tidak mampan.
Implikasi terhadap Landskap AI
Penemuan AA-Briefcase berfungsi sebagai semakan realiti bagi kitaran hangat "Ejen AI". Untuk AI beralih daripada pembantu perbualan kepada pekerja pengetahuan yang boleh dipercayai, model mesti berkembang melampaui pencarian ringkas kepada sintesis rentas-konteks yang mendalam. Bagi pembangun dan pemimpin teknologi, matlamatnya bukan lagi sekadar meningkatkan jumlah parameter, tetapi menambah baik keupayaan untuk mengendalikan tugasan penaakulan jangka panjang yang terfragmentasi dengan ketepatan yang lebih tinggi dan kos marginal yang lebih rendah.
Ringkasan Utama
- Jurang Prestasi yang Besar: Malah model terma