તમારો AI એજન્ટ તમામ ટેસ્ટમાં પાસ થયો — પણ પછી પ્રોડક્શનમાં નિષ્ફળ ગયો

📅3 hours ago⏱2 min read

તમારો AI એજન્ટ તમામ પરીક્ષણોમાં પાસ થયો — અને પછી પ્રોડક્શનમાં નિષ્ફળ ગયો

તમારો AI એજન્ટ તમારા સ્ટેજિંગ એન્વાયરમેન્ટમાં (staging environment) સંપૂર્ણ રીતે કામ કરતો હતો. ડેમો ખૂબ જ સરસ લાગતા હતા. પ્રોડક્ટ મેનેજર ખુશ હતા.

પછી તમે તેને પ્રોડક્શનમાં શિપ કર્યું.

ત્રણ અઠવાડિયા પછી, તમને બગ રિપોર્ટ્સ (bug reports) મળે છે. એજન્ટ એવા જવાબો આપે છે જે સાચા લાગે છે પરંતુ સંપૂર્ણપણે ખોટા હોય છે.

મેં ૨૦૨૫માં આવું થતું જોયું છે. એક ટીમે એવો એજન્ટ શિપ કર્યો જે એન્ટરપ્રાઇઝ ગ્રાહકો માટે પ્રોડક્ટના ભાવ વિશે ભ્રામક માહિતી (hallucinated) આપતો હતો. એજન્ટનો કોન્ફિડન્સ સ્કોર ૦.૯૪ જેટલો ઊંચો હતો. પરંતુ વાસ્તવિક ચોકસાઈ (accuracy) માત્ર ૬૦% હતી.

ટીમ નિષ્ફળ ગઈ કારણ કે તેમની પાસે કોઈ ઇવેલ્યુએશન પાઇપલાઇન (evaluation pipeline) નહોતી. તેઓ માત્ર આશા પર નિર્ભર હતા.

આશા એ ડિપ્લોયમેન્ટ વ્યૂહરચના (deployment strategy) નથી.

મોટાભાગની ટીમો તેમનો બધો સમય એજન્ટ આર્કિટેક્ચર પર વિતાવે છે. તેઓ ટૂલ ડેફિનેશન, પ્રોમ્પ્ટ્સ અને લોજિક પર ધ્યાન કેન્દ્રિત કરે છે. તેઓ શિપ કરે છે અને પ્રાર્થના કરે છે.

આનાથી 'મેઝરમેન્ટ થિયેટર' (Measurement Theater) સર્જાય છે. આ ત્યારે થાય છે જ્યારે તમે વાસ્તવિક નિષ્ફળતાઓને પકડવાને બદલે એજન્ટને સારું દેખાડવા માટે ડેશબોર્ડ્સ અને ટેસ્ટ સૂટ્સનો ઉપયોગ કરો છો. તમે બેન્ચમાર્ક પર ૯૫% ચોકસાઈની ઉજવણી કરો છો જ્યારે એજન્ટ વાસ્તવિક યુઝર ક્વેરીઝમાં ૩૦% વખત નિષ્ફળ જાય છે.

તમારે સ્ટેટિક બેન્ચમાર્કથી SkillOps તરફ આગળ વધવાની જરૂર છે. આનો અર્થ એ છે કે આખા એજન્ટને બદલે એજન્ટની ચોક્કસ કુશળતા (skills) નું મૂલ્યાંકન કરવું.

એજન્ટ કામ કરે છે કે નહીં તે પૂછવાનું બંધ કરો. કઈ ચોક્કસ કુશળતા નિષ્ફળ જઈ રહી છે અને શા માટે તે પૂછવાનું શરૂ કરો.

પ્રોડક્શનની આપત્તિઓ ટાળવા માટે આ ફ્રેમવર્કનો ઉપયોગ કરો:

શિપ કરતા પહેલા 'પૂરતું સારું' (good enough) શું છે તે નક્કી કરો. દરેક કુશળતા માટે ચોકસાઈની મર્યાદા (accuracy thresholds) નક્કી કરો. સારાંશ (summary) માટે ૮૫% ચોકસાઈનો દર ઠીક હોઈ શકે છે. પરંતુ કિંમત (pricing) માટે ૮૫% ચોકસાઈનો દર તમને નુકસાન કરાવી શકે છે.
વાસ્તવિક જીવનને પ્રતિબિંબિત કરે તેવો ડેટા બનાવો. તમારા પરીક્ષણોએ યુઝર્સ ખરેખર શું પૂછે છે તેને પ્રતિબિંબિત કરવું જોઈએ, નહીં કે તમે તેમને શું પૂછવા ઈચ્છો છો તેને.
પહેલા દિવસથી જ રિગ્રેશન (regressions) શોધો. ડિપ્લોય કરતા પહેલા દરેક પ્રોમ્પ્ટ ફેરફાર અથવા ટૂલ અપડેટ માટે ઓટોમેટેડ ટેસ્ટ થવો જ જોઈએ.
માત્ર ચોકસાઈ જ નહીં, પણ કોન્ફિડન્સનું પણ મોનિટરિંગ કરો. જે એજન્ટ જાણે છે કે તે ક્યારે ખોટો છે, તે ખોટા જવાબો આપતા અતિ-આત્મવિશ્વાસુ એજન્ટ કરતા વધુ સુરક્ષિત છે.
ફેલ્યોર બજેટ (failure budgets) બનાવો. શિપ કરતા પહેલા નક્કી કરો કે તમે દરેક કુશળતા દીઠ કેટલી નિષ્ફળતા સહન કરી શકો છો.

૨૦૨૬ના અંત સુધીમાં, એજન્ટ ઇવેલ્યુએશન ડિપ્લોયમેન્ટનો એક પ્રમાણભૂત ભાગ બની જશે. જે ટીમો આ ફ્રેમવર્કનો ઉપયોગ કરશે તેઓ ઝડપથી શિપ કરી શકશે. જે ટીમો નહીં કરે તેઓ કહેતા રહેશે, "તે સ્ટેજિંગમાં કામ કરતું હતું."

શું તમારી ટીમે AI એજન્ટ્સ માટે ઇવેલ્યુએશન ઇન્ફ્રાસ્ટ્રક્ચર બનાવ્યું છે? કયા મેટ્રિક્સ (metrics) એ ખરેખર તમારી નિષ્ફળતાઓ પકડી હતી?

નીચે કોમેન્ટ કરો. હું દરેકને જવાબ આપું છું.

સ્ત્રોત: https://dev.to/xu_xu_b2179aa8fc958d531d1/your-ai-agent-passed-all-tests-then-failed-in-production-heres-the-framework-nobody-told-you-329

વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi

તમારો AI એજન્ટ તમામ ટેસ્ટમાં પાસ થયો — પણ પછી પ્રોડક્શનમાં નિષ્ફળ ગયો

Continue reading

𝗧𝗵𝗲 𝗕𝗹𝗶𝗻𝗱 𝗦𝗽𝗼𝘁 𝗢𝗳 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗗𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲 𝗚𝘂𝗶𝗱𝗲 (𝟮𝟬𝟮𝟲)

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗗𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲 𝗚𝘂𝗶𝗱𝗲 (𝟮𝟬𝟮𝟲)

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗶𝗻 𝗜𝗻𝘁𝗲𝗹𝗹𝗶𝗴𝗲𝗻𝘁 𝗔𝗴𝗲𝗻𝘁 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲

𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗡𝗼𝗻 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀