Agen AI Mendapat Skor 0% pada Tugas Ahli
Agen AI gagal dalam tugas-tugas ahli.
Benchmark ALE menguji model-model papan atas pada pekerjaan profesional. Tugas-tugas ini membutuhkan keahlian nyata. Ini bukan sekadar tugas sederhana seperti meringkas PDF.
Hasilnya sangat jelas. Model seperti Fable 5 dan GPT-5.5 mendapat skor 0% pada masalah ahli yang paling sulit. Lemparan koin pun akan memberikan hasil yang lebih baik.
Performa pada tugas tingkat menengah juga rendah. Agen-agen terbaik hanya mencapai tingkat keberhasilan 15% hingga 21%.
Agen AI tidaklah sehebat apa yang digembar-gemborkan.
Anda melihat video agen yang memesan tiket pesawat atau menulis kode. Demo-demo ini terlihat luar biasa. Namun, demo telah dikurasi. Benchmark tidak.
Ada kesenjangan besar antara demo dan penerapan nyata. Banyak tim membuat keputusan produk berdasarkan kemampuan yang sebenarnya tidak ada. Mereka berencana membiarkan agen mengelola seluruh alur kerja. Ini adalah sebuah kesalahan.
Berikut adalah apa yang ditunjukkan oleh data:
- Agen bekerja dengan baik sebagai asisten untuk tugas tingkat menengah.
- Otonomi ahli belum ada di sini.
- Benchmark lebih andal daripada demo.
Jika Anda membangun dengan agen saat ini, bangunlah sesuai dengan batasan mereka saat ini. Jangan membangun berdasarkan apa yang dijanjikan oleh seorang pembicara akan segera terjadi.
Industri mengabaikan hasil ini. Orang-orang terus membuat peta jalan berdasarkan hype alih-alih data.
Jika Anda menggunakan agen dalam produk Anda, perlakukan mereka seperti pengembang junior. Mereka mengerjakan tugas-tugas kecil dengan aturan yang jelas. Mereka gagal pada pekerjaan kompleks tanpa pengawasan.
Ikuti aturan-aturan ini:
- Tetap libatkan manusia (human in the loop) untuk pekerjaan berisiko tinggi.
- Berikan tugas yang sangat spesifik kepada agen.
- Ukur performa terhadap beban kerja nyata Anda.
Pendekatan pragmatis memang kurang menyenangkan dibandingkan utas (thread) yang penuh sensasi. Namun