તમારો AI એજન્ટ તમામ પરીક્ષણોમાં પાસ થયો — અને પછી પ્રોડક્શનમાં નિષ્ફળ ગયો
તમારો AI એજન્ટ તમારા સ્ટેજિંગ એન્વાયરમેન્ટમાં (staging environment) સંપૂર્ણ રીતે કામ કરતો હતો. ડેમો ખૂબ જ સરસ લાગતા હતા. પ્રોડક્ટ મેનેજર ખુશ હતા.
પછી તમે તેને પ્રોડક્શનમાં શિપ કર્યું.
ત્રણ અઠવાડિયા પછી, તમને બગ રિપોર્ટ્સ (bug reports) મળે છે. એજન્ટ એવા જવાબો આપે છે જે સાચા લાગે છે પરંતુ સંપૂર્ણપણે ખોટા હોય છે.
મેં ૨૦૨૫માં આવું થતું જોયું છે. એક ટીમે એવો એજન્ટ શિપ કર્યો જે એન્ટરપ્રાઇઝ ગ્રાહકો માટે પ્રોડક્ટના ભાવ વિશે ભ્રામક માહિતી (hallucinated) આપતો હતો. એજન્ટનો કોન્ફિડન્સ સ્કોર ૦.૯૪ જેટલો ઊંચો હતો. પરંતુ વાસ્તવિક ચોકસાઈ (accuracy) માત્ર ૬૦% હતી.
ટીમ નિષ્ફળ ગઈ કારણ કે તેમની પાસે કોઈ ઇવેલ્યુએશન પાઇપલાઇન (evaluation pipeline) નહોતી. તેઓ માત્ર આશા પર નિર્ભર હતા.
આશા એ ડિપ્લોયમેન્ટ વ્યૂહરચના (deployment strategy) નથી.
મોટાભાગની ટીમો તેમનો બધો સમય એજન્ટ આર્કિટેક્ચર પર વિતાવે છે. તેઓ ટૂલ ડેફિનેશન, પ્રોમ્પ્ટ્સ અને લોજિક પર ધ્યાન કેન્દ્રિત કરે છે. તેઓ શિપ કરે છે અને પ્રાર્થના કરે છે.
આનાથી 'મેઝરમેન્ટ થિયેટર' (Measurement Theater) સર્જાય છે. આ ત્યારે થાય છે જ્યારે તમે વાસ્તવિક નિષ્ફળતાઓને પકડવાને બદલે એજન્ટને સારું દેખાડવા માટે ડેશબોર્ડ્સ અને ટેસ્ટ સૂટ્સનો ઉપયોગ કરો છો. તમે બેન્ચમાર્ક પર ૯૫% ચોકસાઈની ઉજવણી કરો છો જ્યારે એજન્ટ વાસ્તવિક યુઝર ક્વેરીઝમાં ૩૦% વખત નિષ્ફળ જાય છે.
તમારે સ્ટેટિક બેન્ચમાર્કથી SkillOps તરફ આગળ વધવાની જરૂર છે. આનો અર્થ એ છે કે આખા એજન્ટને બદલે એજન્ટની ચોક્કસ કુશળતા (skills) નું મૂલ્યાંકન કરવું.
એજન્ટ કામ કરે છે કે નહીં તે પૂછવાનું બંધ કરો. કઈ ચોક્કસ કુશળતા નિષ્ફળ જઈ રહી છે અને શા માટે તે પૂછવાનું શરૂ કરો.
પ્રોડક્શનની આપત્તિઓ ટાળવા માટે આ ફ્રેમવર્કનો ઉપયોગ કરો:
શિપ કરતા પહેલા 'પૂરતું સારું' (good enough) શું છે તે નક્કી કરો. દરેક કુશળતા માટે ચોકસાઈની મર્યાદા (accuracy thresholds) નક્કી કરો. સારાંશ (summary) માટે ૮૫% ચોકસાઈનો દર ઠીક હોઈ શકે છે. પરંતુ કિંમત (pricing) માટે ૮૫% ચોકસાઈનો દર તમને નુકસાન કરાવી શકે છે.
વાસ્તવિક જીવનને પ્રતિબિંબિત કરે તેવો ડેટા બનાવો. તમારા પરીક્ષણોએ યુઝર્સ ખરેખર શું પૂછે છે તેને પ્રતિબિંબિત કરવું જોઈએ, નહીં કે તમે તેમને શું પૂછવા ઈચ્છો છો તેને.
પહેલા દિવસથી જ રિગ્રેશન (regressions) શોધો. ડિપ્લોય કરતા પહેલા દરેક પ્રોમ્પ્ટ ફેરફાર અથવા ટૂલ અપડેટ માટે ઓટોમેટેડ ટેસ્ટ થવો જ જોઈએ.
માત્ર ચોકસાઈ જ નહીં, પણ કોન્ફિડન્સનું પણ મોનિટરિંગ કરો. જે એજન્ટ જાણે છે કે તે ક્યારે ખોટો છે, તે ખોટા જવાબો આપતા અતિ-આત્મવિશ્વાસુ એજન્ટ કરતા વધુ સુરક્ષિત છે.
ફેલ્યોર બજેટ (failure budgets) બનાવો. શિપ કરતા પહેલા નક્કી કરો કે તમે દરેક કુશળતા દીઠ કેટલી નિષ્ફળતા સહન કરી શકો છો.
૨૦૨૬ના અંત સુધીમાં, એજન્ટ ઇવેલ્યુએશન ડિપ્લોયમેન્ટનો એક પ્રમાણભૂત ભાગ બની જશે. જે ટીમો આ ફ્રેમવર્કનો ઉપયોગ કરશે તેઓ ઝડપથી શિપ કરી શકશે. જે ટીમો નહીં કરે તેઓ કહેતા રહેશે, "તે સ્ટેજિંગમાં કામ કરતું હતું."
શું તમારી ટીમે AI એજન્ટ્સ માટે ઇવેલ્યુએશન ઇન્ફ્રાસ્ટ્રક્ચર બનાવ્યું છે? કયા મેટ્રિક્સ (metrics) એ ખરેખર તમારી નિષ્ફળતાઓ પકડી હતી?
નીચે કોમેન્ટ કરો. હું દરેકને જવાબ આપું છું.
વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi