𝗪𝗶𝗱𝗲𝗦𝗲𝗮𝗿𝗰𝗵: 𝗣𝗲𝗻𝗮𝗻𝗱𝗮𝗮𝗿𝗮𝘀𝗮𝗻 𝗣𝗲𝗻𝗰𝗮𝗿𝗶𝗮𝗻 𝗠𝗮𝗸𝗹𝘂𝗺𝗮𝘁 𝗟𝘂𝗮𝘀 𝗕𝗲𝗿𝗮𝘀𝗮𝘀𝗸𝗮𝗻 𝗘𝗷𝗲𝗻
Ejen AI sering bergelut dengan carian yang luas. Mereka tersesat dalam perincian atau terlepas gambaran besar.
WideSearch mengubah cara kita mengukur perkara ini. Ia menyediakan cara untuk menguji sejauh mana keberkesanan ejen mencari maklumat merentasi topik yang luas.
Kebanyakan penandaarasan tertumpu pada tugas-tugas kecil dan khusus. WideSearch melihat bagaimana ejen mengendalikan pertanyaan yang luas.
Ciri-ciri utama penyelidikan ini:
- Menguji prestasi ejen dalam carian maklumat yang luas.
- Mengukur sejauh mana ejen dapat mengemudi topik yang kompleks.
- Menyediakan cara standard untuk membandingkan model AI yang berbeza.
Penandaarasan ini membantu pembangun membina ejen yang lebih baik. Ia menunjukkan di mana model semasa gagal dan di mana mereka berjaya.
Anda boleh membaca kajian penuh untuk memahami kaedah dan keputusan yang diperoleh.
Sumber: https://dev.to/paperium/widesearch-benchmarking-agentic-broad-info-seeking-27o5
Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi