Testing Agentic AI Systems

AI એજન્ટ બનાવવો સરળ છે. તે નિયંત્રણ બહાર ન જાય તેની ખાતરી કરવી મુશ્કેલ છે. પ્રોટોટાઇપથી પ્રોડક્શન સુધી પહોંચવા માટે તમારે એક કડક ટેસ્ટિંગ ફ્રેમવર્કની જરૂર છે.

તમારા એજન્ટને સુરક્ષિત કરવા માટે આ આઠ તબક્કાઓ અનુસરો:

Stage 1: Component tests દરેક લેયર માટે યુનિટ ટેસ્ટ લખો. તમારા રિસર્ચ એજન્ટ, તમારા સર્ચ ટૂલ્સ અને તમારી મેમરીનું પરીક્ષણ કરો. તમારા નિષ્ણાતો દ્વારા મંજૂર કરાયેલ mock data નો ઉપયોગ કરો. Shopify અથવા Meta જેવી તમારી એક્સટર્નલ APIs ને stub કરો. જો કોઈ API બંધ હોય, તો તમારો ટેસ્ટ તેના કારણે નિષ્ફળ ન જવો જોઈએ.

Stage 2: The prompt repository સચોટ પ્રોમ્પ્ટ્સની એક લાઇબ્રેરી બનાવો. તેમને બિઝનેસ એરિયા મુજબ ટેગ કરો. પ્રોમ્પ્ટ ઇન્જેક્શન અને ખાલી ટૂલ રિસ્પોન્સ જેવા નિષ્ફળતાના કિસ્સાઓનો સમાવેશ કરો. મેમરી કામ કરે છે તેની ખાતરી કરવા માટે multi-turn વાતચીતોનું પરીક્ષણ કરો. યુઝર ડેટા સેશન્સ વચ્ચે લીક ન થાય તેની તપાસ કરો.

Stage 3: Coverage and trajectory દરેક ટૂલ ખરેખર કાર્યરત થાય છે કે નહીં તે તપાસો. ત્યારબાદ, એજન્ટે લીધેલા માર્ગની તપાસ કરો. માત્ર ટૂલ ચલાવવું પૂરતું નથી. એજન્ટે યોગ્ય ક્રમમાં, યોગ્ય arguments સાથે, યોગ્ય ટૂલનો ઉપયોગ કરવો જોઈએ.

Stage 4: Versioned runs દરેક રન પર વર્ઝન નંબર લગાવો. દરેક રિસ્પોન્સ સ્ટોર કરો. મોડેલની randomness ને ધ્યાનમાં લેવા માટે દરેક પ્રોમ્પ્ટને ઘણી વખત ચલાવો. તમારો pass rate, cost, tokens, અને latency ટ્રેક કરો. ચોકસાઈ (Accuracy) એ ઝડપ અને કિંમત સામેનો બિઝનેસ trade-off છે.

Stage 5: Ground truth store દરેક પ્રોમ્પ્ટ માટે વેરિફાઇડ જવાબો રાખો. આ જવાબો કોણ બદલી શકે તે નક્કી કરો. જો તમારું પ્રોડક્ટ બદલાય ત્યારે તમે તમારા ground truths અપડેટ નહીં કરો, તો તમારા ટેસ્ટ યોગ્ય રીતે નિષ્ફળ જશે.

Stage 6: The evaluator તમારા ground truth સામે રનનું સ્કોરિંગ કરો. ચોકસાઈ અને સાચા હોવાપણું તપાસવા માટે LLM judge નો ઉપયોગ કરો. Judge bias પર ધ્યાન આપો. ચોકસાઈ સુનિશ્ચિત કરવા માટે LLM સ્કોર્સની સરખામણી માનવ લેબલ્સ સાથે કરો.

Stage 7: Human review ઓછા સ્કોર ધરાવતા કિસ્સાઓ માટે એક ડેશબોર્ડ બનાવો. ભૂલો સુધારવા માટે માણસોને તક આપો. તમારા LLM judge ને તાલીમ આપવા માટે આ માનવ સુધારાઓનો ઉપયોગ કરો.

Stage 8: CI/CD integration દરેક pull request પર component tests ચલાવો. દરરોજ રાત્રે સંપૂર્ણ suite ચલાવો. જો સ્કોર ઘટે તો deployments ને બ્લોક કરે તેવો threshold સેટ કરો.

Source: https://dev.to/manikandan_pandurangan_16/dont-let-your-jarvis-become-ultron-a-field-guide-to-testing-agentic-ai-system-5c7m

Optional learning community: https://t.me/GyaanSetuAi