Agen AI Mendapat Skor 0% pada Tugas Pakar

Translated for your language. Read the original.

AI-assisted draft.

kemarin dulu2min read

Agen AI Mendapat Skor 0% pada Tugas Ahli

Agen AI gagal dalam tugas-tugas ahli.

Benchmark ALE menguji model-model papan atas pada pekerjaan profesional. Tugas-tugas ini membutuhkan keahlian nyata. Ini bukan sekadar tugas sederhana seperti meringkas PDF.

Hasilnya sangat jelas. Model seperti Fable 5 dan GPT-5.5 mendapat skor 0% pada masalah ahli yang paling sulit. Lemparan koin pun akan memberikan hasil yang lebih baik.

Performa pada tugas tingkat menengah juga rendah. Agen-agen terbaik hanya mencapai tingkat keberhasilan 15% hingga 21%.

Agen AI tidaklah sehebat apa yang digembar-gemborkan.

Anda melihat video agen yang memesan tiket pesawat atau menulis kode. Demo-demo ini terlihat luar biasa. Namun, demo telah dikurasi. Benchmark tidak.

Ada kesenjangan besar antara demo dan penerapan nyata. Banyak tim membuat keputusan produk berdasarkan kemampuan yang sebenarnya tidak ada. Mereka berencana membiarkan agen mengelola seluruh alur kerja. Ini adalah sebuah kesalahan.

Berikut adalah apa yang ditunjukkan oleh data:

Agen bekerja dengan baik sebagai asisten untuk tugas tingkat menengah.
Otonomi ahli belum ada di sini.
Benchmark lebih andal daripada demo.

Jika Anda membangun dengan agen saat ini, bangunlah sesuai dengan batasan mereka saat ini. Jangan membangun berdasarkan apa yang dijanjikan oleh seorang pembicara akan segera terjadi.

Industri mengabaikan hasil ini. Orang-orang terus membuat peta jalan berdasarkan hype alih-alih data.

Jika Anda menggunakan agen dalam produk Anda, perlakukan mereka seperti pengembang junior. Mereka mengerjakan tugas-tugas kecil dengan aturan yang jelas. Mereka gagal pada pekerjaan kompleks tanpa pengawasan.

Ikuti aturan-aturan ini:

Tetap libatkan manusia (human in the loop) untuk pekerjaan berisiko tinggi.
Berikan tugas yang sangat spesifik kepada agen.
Ukur performa terhadap beban kerja nyata Anda.

Pendekatan pragmatis memang kurang menyenangkan dibandingkan utas (thread) yang penuh sensasi. Namun

Agen AI Mendapat Skor 0% pada Tugas Pakar

Continue reading

𝗧𝗵𝗲 𝗕𝗹𝗶𝗻𝗱 𝗦𝗽𝗼𝘁 𝗢𝗳 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

Agen AI Anda Lulus Semua Tes — Namun Gagal di Produksi

𝗔𝗺𝗯𝗶𝗲𝗻𝘁 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗼 𝗔𝘃𝗼𝗶𝗱

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗛𝗮𝘃𝗲 𝗔 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗣𝗿𝗼𝗯𝗹𝗲𝗺