AI એજન્ટનું મૂલ્યાંકન ખૂબ વહેલું પૂરું થઈ જાય છે
મોટાભાગના લોકો એવું માને છે કે AI એજન્ટનું મૂલ્યાંકન લોન્ચિંગ સાથે જ પૂરું થઈ જાય છે. તેઓ બેન્ચમાર્ક પર ઊંચો સ્કોર જુએ છે અને માની લે છે કે એજન્ટ તૈયાર છે. આ એક ભૂલ છે.
ઊંચો સ્કોરનો અર્થ ઘણીવાર એ જ હોય છે કે એજન્ટ અમુક ચોક્કસ કિસ્સાઓમાં સફળ રહ્યો છે. તેનો અર્થ એ નથી કે એજન્ટ વાસ્તવિક દુનિયા માટે તૈયાર છે.
વર્તમાન બેન્ચમાર્ક્સમાં મોટી ખામીઓ છે. 15 મુખ્ય બેન્ચમાર્ક્સની સમીક્ષાએ દર્શાવ્યું છે કે:
- શૂન્ય બેન્ચમાર્ક્સમાં તેમના સ્કોરમાં સુરક્ષા (safety) અથવા સિક્યુરિટીનો સમાવેશ કરવામાં આવ્યો હતો.
- શૂન્ય બેન્ચમાર્ક્સમાં ખર્ચ કાર્યક્ષમતા (cost efficiency) નો સમાવેશ કરવામાં આવ્યો હતો.
- 15 માંથી 13 માત્ર બાઈનરી સફળતા અથવા નિષ્ફળતા પર આધારિત હતા.
- એક પણ 50% ડિપ્લોયમેન્ટ રેડીનેસ (deployment readiness) સુધી પહોંચ્યું નથી.
માત્ર અંતિમ આઉટપુટનું પરીક્ષણ કરવું જોખમી છે. જો એજન્ટ સાચો જવાબ આપે છે, તો તે સફળતા જેવું લાગે છે. પરંતુ તે જે માર્ગ અપનાવ્યો છે તે ખોટો હોઈ શકે છે.
એક એજન્ટ:
- સાચો જવાબ મેળવવા માટે ખોટા સાધનો (tools) નો ઉપયોગ કરી શકે છે.
- વેરિફિકેશન સ્ટેપ્સ (verification steps) ને સંપૂર્ણપણે છોડી શકે છે.
- તથ્યો વિશે ભ્રમ (hallucinate) પેદા કરી શકે છે પરંતુ સાચા નિષ્કર્ષ પર પહોંચી શકે છે.
- સતત પ્રયાસો (retries) દ્વારા તમારું બજેટ ખર્ચ કરી શકે છે.
જો કસ્ટમર સપોર્ટ એજન્ટ ખોટા એકાઉન્ટ માટે રિફંડ પ્રોસેસ કરે છે, તો આઉટપુટ બરાબર લાગે છે. પરંતુ એજન્ટ નિષ્ફળ ગયો છે.
તમારે માત્ર જવાબ જ નહીં, પણ તેની પ્રક્રિયા (trajectory) ને પણ સ્કોર આપવી જોઈએ.
સાચું મૂલ્યાંકન આ પાસાઓને આવરી લેવું જોઈએ:
- ટૂલ અને પેરામીટરની સચોટતા.
- ગ્રાઉન્ડિંગ અને ચોકસાઈ.
- ખર્ચ અને લેટન્સી (latency).
- પોલિસી અને સુરક્ષા.
- ભૂલોમાંથી સુધારો (recovery).
મૂલ્યાંકનને લોન્ચ રિપોર્ટ તરીકે જોવાનું બંધ કરો. તેને સતત ચાલતા લૂપ (continuous loop) તરીકે જુઓ.
કામ કરવાની વધુ સારી રીત:
- ક્ષમતા માટે પબ્લિક બેન્ચમાર્ક્સ બનાવો.
- રિલીઝ કરતા પહેલા ઓફલાઇન ટેસ્ટ ચલાવો.
- રિયલ ટાઇમમાં પ્રોડક્શન ટ્રેસ (production traces) મોનિટર કરો.
- ટૂલ કોલ્સ, આર્ગ્યુમેન્ટ્સ અને મધ્યવર્તી નિર્ણયોને કેપ્ચર કરો.
- તમારા ઓફલાઇન ડેટાસેટ્સ સુધારવા માટે નિષ્ફળ પ્રોડક્શન ટ્રેસનો ઉપયોગ કરો.
મૂલ્યાંકન એ ઓબ્ઝર્વેબિલિટી (observability) ની સમસ્યા છે. એજન્ટ ત્યારે જ સફળ ગણાય જો તેનું વર્તન તમારા વ્યવસાયિક લક્ષ્યો, તમારા સાધનો અને તમારા વપરાશકર્તાના ઈરાદા (user intent) સાથે સુસંગત રહે. આ વસ્તુઓ દરરોજ બદલાતી રહે છે.
માત્ર ટ્રેસ સ્ટોર ન કરો. તેનું મૂલ્યાંકન કરો. મૂલ્યાંકન વગર ટ્રેસ સ્ટોરેજ એ માત્ર સર્ચ સમસ્યા છે. પ્રોડક્શન ડેટા વગરનું ઓફલાઇન મૂલ્યાંકન એ માત્ર દેખાડો (theater) છે.
મૂલ્યાંકનનું અંતિમ પગલું સ્કોર ન હોવું જોઈએ. અંતિમ પગલું આગામી ટ્રેસ હોવું જોઈએ.
Source: https://dev.to/focused_dot_io/ai-agent-evaluation-ends-too-early-focused-labs-38aa
Optional learning community: https://t.me/GyaanSetuAi
