Bahagian Paling Sukar bagi Ejen AI Adalah Senario Luar Jangka

Translated for your language. Read the original.

AI-assisted draft.

Bahagian Paling Sukar bagi Ejen AI Adalah Senario Luar Jangka

Bahagian Paling Sukar bagi Ejen AI ialah Laluan Tidak Menyenangkan

Kebanyakan demo ejen AI menunjukkan senario yang sempurna. Soalan yang jelas menghasilkan jawapan yang kemas. Semua orang bertepuk tangan.

Kejuruteraan sebenar berlaku apabila sesuatu perkara rosak.

Apa yang berlaku apabila API tergendala? Apa yang berlaku apabila ejen berpusing (loop) selama-lamanya dan menghabiskan baki kad kredit anda? Apa yang berlaku apabila ejen tidak mempunyai data tetapi tetap menulis laporan yang kelihatan benar?

Saya membina BioAgent untuk menyelesaikan masalah ini dalam genomik. Ia adalah penganalisis autonomi yang menarik data, mencari di PubMed, dan menulis laporan klinikal.

Saya menggunakan LangGraph dan Claude untuk membinanya. Berikut adalah apa yang saya pelajari tentang membina untuk kegagalan.

Hadkan setiap gelung (loop) Ejen mesti mempunyai had cubaan semula (retry limit) yang tetap. Jika ejen anda memanggil API berbayar, gelung adalah risiko kewangan. Had hanya berfungsi jika anda menambah nilai pengira (counter) dalam setiap langkah. Jika anda terlupa satu baris kod tersebut, ejen akan berpusing sehingga sistem tergendala.
Uji kegagalan, bukan kejayaan "Happy path" sentiasa berfungsi semasa pembangunan. Anda mesti memaksa kebergantungan (dependencies) anda untuk gagal semasa ujian. Tulis ujian yang memastikan ejen berfungsi secara terhad dengan lancar (degrades gracefully) dan bukannya berpusing apabila API tidak aktif.
Cegah maklumat tidak masuk akal yang meyakinkan Bahaya terbesar bukanlah kegagalan sistem (crash). Bahayanya ialah laporan yang kelihatan profesional tetapi mengandungi data palsu. Jangan bergantung pada arahan prompt untuk menghentikan halusinasi. Gunakan ujian untuk menjamin bahawa ejen tidak akan mereka-reka metrik.
Asaskan hasil anda pada fakta Pencarian (retrieval) hanya berguna jika teks sampai kepada penulis. Saya mendapati bahawa hanya menghantar ID dan bukannya abstrak penuh menyebabkan model mereka-reka kaitan. Anda mesti menghantar teks sebenar kepada model untuk memastikan laporan kekal berasaskan fakta.

Peraturan dalam prompt hanyalah satu harapan. Peraturan dalam ujian adalah satu jaminan.

Bina untuk laluan tidak menyenangkan. Itulah bahagian yang sebenarnya penting.

Sumber: https://dev.to/gbadedata/the-hardest-part-of-an-autonomous-ai-agent-is-the-unhappy-path-3p2c

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi

Bahagian Paling Sukar bagi Ejen AI Adalah Senario Luar Jangka

Continue reading

Ejen AI Mempunyai Masalah Kebolehpercayaan

Demo Ejen Anda Berfungsi. Itulah Perangkapnya.

Bahagian Sukar Ejen AI Bukanlah Melaksanakan Tugas, Tetapi Merancang

Kerangka Kerja AI Paling Hangat Mempunyai Kecacatan Kritikal