Agentic AI ROI નો છૂપો હત્યારો

તમારા Kubernetes pods ગ્રીન છે. તમારી API latency ઓછી છે. તમારો LLM provider 99.9% uptime બતાવે છે.

તેમ છતાં, તમારી ઓટોમેટેડ લોન સિસ્ટમે માત્ર ત્રણ કલાકમાં તેનો આખો માસિક API બજેટ ખર્ચ નાખ્યો. બે એજન્ટ્સ લૂપમાં ફસાઈ ગયા.

આ "સ્વસ્થ છતાં ભ્રમિત" (Healthy but Hallucinating) વિરોધાભાસ છે.

પરંપરાગત સોફ્ટવેરમાં, સિસ્ટમ કાં તો ચાલુ હોય છે અથવા બંધ. એજન્ટિક મેશ (agentic mesh) માં, સિસ્ટમ સ્વસ્થ દેખાઈ શકે છે પરંતુ સંપૂર્ણપણે નિષ્ફળ જઈ શકે છે. જો તમે એજન્ટ્સ માટે સ્ટાન્ડર્ડ Site Reliability Engineering (SRE) નો ઉપયોગ કરો છો, તો તમે ખોટા સિગ્નલોનું મોનિટરિંગ કરી રહ્યા છો. તમે એવા દર્દીના હૃદયના ધબકારા માપી રહ્યા છો જે વ્યાવહારિક રીતે મગજથી મૃત (brain-dead) છે.

સ્ટાન્ડર્ડ ઇન્ફ્રાસ્ટ્રક્ચર એજન્ટિક કોલેપ્સ (agentic collapse) ને રોકવામાં કેમ નિષ્ફળ જાય છે?

પરંપરાગત SRE નિશ્ચિત (deterministic) સિસ્ટમ્સ માટે બનાવવામાં આવ્યું છે. જ્યારે કોઈ સર્વિસ નિષ્ફળ જાય છે, ત્યારે તે એરર (error) આપે છે. તે બાઈનરી (binary) છે. એજન્ટની નિષ્ફળતાઓ અલગ હોય છે. એજન્ટ ક્રેશ થતો નથી. તે ડ્રિફ્ટ (drift) થાય છે. તે ટાઈમ આઉટ થતો નથી. તે એવો પેરામીટર કલ્પના કરે છે (hallucinates) જે પછીના સ્ટેપ્સમાં સાયલન્ટ ફેઈલ્યોર (silent failure) નું કારણ બને છે.

જ્યારે આપણે સિંગલ બોટ્સથી એન્ટરપ્રાઇઝ એજન્ટ ફેબ્રિક્સ (enterprise agent fabrics) તરફ આગળ વધીએ છીએ ત્યારે આપણે આ તફાવત જોઈએ છીએ. એક ટીમ બેન્ચમાર્ક પર 95% ચોકસાઈ રિપોર્ટ કરે છે, પરંતુ સિસ્ટમ પ્રોડક્શનમાં નિષ્ફળ જાય છે. બેન્ચમાર્ક એ માપે છે કે મોડેલ પ્રશ્નનો જવાબ આપી શકે છે કે નહીં. તેઓ એ નથી માપતા કે સિસ્ટમ ચાર એજન્ટો ધરાવતા 12-સ્ટેપ વર્કફ્લોમાં સ્ટેટ (state) જાળવી શકે છે કે નહીં.

તમારે Agent Reliability Engineering (ARE) ની જરૂર છે.

પરંપરાગત SRE બાઈનરી સ્ટેટ્સનું સંચાલન કરે છે. ARE પ્રોબેબિલિટી ડિસ્ટ્રિબ્યુશન (probability distributions) નું સંચાલન કરે છે. જો તમે ફક્ત CPU અને મેમરીને ટ્રેક કરો છો, તો તમે એજન્ટની નિષ્ફળતાઓ પ્રત્યે અંધ છો.

મલ્ટી-એજન્ટ સિસ્ટમ્સમાં ભૂલો ફક્ત વધતી નથી, તે ગુણાકારમાં વધે છે. કારણ કે એજન્ટ્સ અન્ય એજન્ટોના આઉટપુટને સત્ય તરીકે ઉપયોગ કરે છે, તેથી સ્ટેપ એકમાં થયેલી નાની ભૂલ સ્ટેપ પાંચ સુધીમાં મોટી હોનારત બની જાય છે.

સામાન્ય નિષ્ફળતાના પ્રકારોમાં શામેલ છે:

  • એજન્ટિક ઇન્ફિનિટ લૂપ્સ (Agentic infinite loops)
  • સ્ટેટ ડ્રિફ્ટ (State drift)
  • પ્રોમ્પ્ટ ઇન્જેક્શન કેસ્કેડ્સ (Prompt injection cascades)
  • ટૂલ-કોલ હેલ્યુસિનેશન (Tool-call hallucinations)

એક જોખમી ઉદાહરણ: એક એજન્ટ અપડેટ ટૂલને કોલ કરે છે. તે એવો પેરામીટર બનાવે છે જે અસ્તિત્વમાં નથી. API વધારાના પેરામીટરને અવગણે છે અને 200 OK રિટર્ન કરે છે. એજન્ટને લાગે છે કે તે સફળ થયું છે, પરંતુ બિઝનેસ લોજિક સાયલન્ટલી નિષ્ફળ જાય છે.

ARE "intent-action-outcome" લૂપ પર ધ્યાન કેન્દ્રિત કરે છે. તમે ફક્ત એ મોનિટર નથી કરતા કે એજન્ટ દ્વારા ટૂલ કોલ કરવામાં આવ્યું છે કે નહીં. તમે એ મોનિટર કરો છો કે તે કોલ મૂળ ઈન્ટેન્ટ (intent) સાથે મેળ ખાતો હતો અને શું પરિણામ લક્ષ્ય સુધી પહોંચ્યું હતું.

એજન્ટ રિલાયબિલિટી એન્જિનિયર (ARE) ની ભૂમિકા આ બાબતો સંભાળે છે:

  • ઈન્ટેન્ટ એનાલિસિસ (Intent Analysis): એજન્ટ ક્યારે લક્ષ્યથી વિચલિત થાય છે તે શોધવું.
  • ગાર્ડરેલ ટ્યુનિંગ (Guardrail Tuning): લૂપ્સ રોકવા માટે નિયંત્રણોને એડજસ્ટ કરવા.
  • ડિપેન્ડેબિલિટી મેપિંગ (Dependability Mapping): એજન્ટ ક્યારે માણસને કામ સોંપવું જોઈએ તે નક્કી કરવું.
  • ઓડિટ આર્કિટેક્ચર (Audit Architecture): આંતરિક તર્ક અને સ્ટેટ ફેરફારોને કેપ્ચર કરવા.

ચોકસાઈ (accuracy) વિશે વાત કરવાનું બંધ કરો. સિસ્ટમ ડિપેન્ડેબિલિટી (System Dependability) વિશે વાત કરવાનું શરૂ કરો.

તમે માનવ હસ્તક્ષેપના ખર્ચને માપીને CFO ને આ બાબત સમજાવી શકો છો. જ્યારે પણ કોઈ માણસ એજન્ટની ભૂલ સુધારે છે, ત્યારે તે રિલાયબિલિટીની નિષ્ફળતા છે. તે કલાકોને તમારા નિષ્ણાત પગાર સાથે ગુણાકાર કરો. અવિશ્વસનીયતાનો ખર્ચ સ્પષ્ટ થઈ જશે.

એજન્ટિક એરર બજેટ્સ (Agentic Error Budgets) નો ઉપયોગ કરો. એક સાદા ઈમેલ સમરાઈઝર માટે, તમારું એરર બજેટ વધારે છે. $10M ટ્રાન્સફર કરતી સિસ્ટમ માટે, તમારું એરર બજેટ શૂન્ય છે.

AI ને સોફ્ટવેર ફીચર તરીકે ન જુઓ. તેને સિસ્ટમિક રિસ્ક (systemic risk) તરીકે જુઓ. આ યુગના વિજેતાઓ પાસે સૌથી સ્માર્ટ મોડેલ્સ નહીં હોય. તેમની પાસે સૌથી વધુ વિશ્વસનીય (dependable) સિસ્ટમ્સ હશે.

Source: https://dev.to/omnithium/the-silent-killer-of-agentic-ai-roi-why-multi-agent-reliability-needs-a-new-sre-discipline-5h7e

Optional learning community: https://t.me/GyaanSetuAi