𝗘𝘃𝗲𝗿𝘆𝗼𝗻𝗲 𝗧𝗮𝗹𝗸𝘀 𝗔𝗯𝗼𝘂𝘁 𝗣𝗿𝗼𝗺𝗽𝘁𝘀. 𝗧𝗵𝗲 𝗟𝗼𝗼𝗽 𝗜𝘀 𝗪𝗵𝗲𝗿𝗲 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗰𝘁𝘂𝗮𝗹𝗹𝘆 𝗙𝗮𝗶𝗹
ప్రాంప్ట్ ఇంజనీరింగ్కే అందరి దృష్టి మళ్లుతోంది. ప్రజలు ప్రాంప్ట్లను పంచుకుంటూ తెలివైనవారమని భావిస్తారు. కానీ నేను రూపొందించే ఏజెంటిక్ సిస్టమ్స్లో (agentic systems), ప్రాంప్ట్లు విఫలం కావు. లూప్ విఫలమవుతుంది.
ఒక ఏజెంట్ అంటే కేవలం ఒకే ఒక ప్రాంప్ట్ మరియు రెస్పాన్స్ కాదు. అది ఒక లూప్.
- స్థితిని గమనించడం (Observe the state).
- ఒక చర్య తీసుకోవడం (Take an action).
- ఫలితాన్ని అంచనా వేయడం (Evaluate the result).
- కొనసాగాలా లేదా ఆగిపోవాలా అని నిర్ణయించుకోవడం (Decide to continue or stop).
ఈ దశల్లో ఏదో ఒకటి విఫలమైతే, ఏజెంట్ విఫలమవుతుంది. దీనిని అధ్యయనం చేయడానికి నేను 1,412 రన్లలో 12 మోడల్లను విశ్లేషించాను. లూప్లు ఎలా విఫలమవుతాయి మరియు వాటిని ఎలా సరిదిద్దాలి అనే అంశాలు ఇక్కడ ఉన్నాయి.
సాధారణ లూప్ వైఫల్యాలు:
- టోకెన్ స్పైరల్స్ (Token Spirals): ఏజెంట్ తన మాటలనే మళ్ళీ మళ్ళీ చెబుతూ, అతిగా టోకెన్లను వాడుతుంది.
- బ్లైండ్ స్పాట్స్ (Blind Spots): ఏజెంట్ తన పరిసరాలను గమనించలేక, ఒకే తప్పును మళ్ళీ మళ్ళీ చేస్తుంది.
- తప్పుడు విజయం (False Success): ఏజెంట్ తప్పు సమాధానాన్ని ఇస్తుంది, కానీ అది సరైనదే అని అనుకుంటుంది.
- డెడ్ ఎండ్స్ (Dead Ends): ఏజెంట్ ఒక లోపాన్ని గుర్తిస్తుంది కానీ, ఆ డేటాను మెరుగుపడటానికి ఉపయోగించుకోలేదు.
మెరుగైన ప్రాంప్ట్ ఈ సమస్యలను పరిష్కరించలేదు. మీకు లూప్ ఇంజనీరింగ్ అవసరం.
మెరుగైన లూప్ల కోసం నాలుగు డిజైన్ సూత్రాలు:
- లూప్ను పరిమితం చేయండి (Bound the loop): ఇటరేషన్లు మరియు టోకెన్లపై కఠినమైన పరిమితిని విధించండి. ఏజెంట్ ఒక పరిమితికి చేరుకుంటే, అది ఆగిపోయి సహాయం కోరాలి.
- పరిసరాలను స్పష్టంగా ఉంచండి (Make the environment legible): 'Observe' దశలో ఏజెంట్కు అవసరమైన అన్ని వాస్తవాలు అందుతున్నాయని నిర్ధారించుకోండి. ఏజెంట్ విఫలమయ్యే చర్యనే మళ్ళీ మళ్ళీ చేస్తుంటే, దానికి సరైన సమాచారం లేదని అర్థం.
- యాక్టర్ను ఎవాల్యుయేటర్ నుండి వేరు చేయండి (Separate the actor from the evaluator): ఒకే మోడల్ తన పనిని తాను తనిఖీ చేసుకునేలా చేయకండి. అవుట్పుట్ను అంచనా వేయడానికి వేరే మోడల్ను లేదా రూల్-బేస్డ్ చెక్ను ఉపయోగించండి.
- లూప్ను పూర్తి చేయండి (Close the loop): లోపాలను నిజమైన పరిష్కారాల కోసం ఉపయోగించండి. లూప్ విఫలమైనప్పుడు, అది మళ్ళీ జరగకుండా ఉండటానికి ఒక రిగ్రెషన్ టెస్ట్ను (regression test) జోడించండి.
ఈ నియమాలను ఉపయోగించి నేను RelayOps అనే సపోర్ట్ ఏజెంట్ను రూపొందించాను. ఏజెంట్ను గ్రేడ్ చేయడానికి మేము ఒక స్వతంత్ర జడ్జిని (independent judge) ఉపయోగించాము.
ఒకసారి, ఏజెంట్ సరైన ఆర్టికల్ను పేర్కొంది కానీ అసలు ప్రశ్నకు సమాధానం ఇవ్వడంలో విఫలమైంది. ఒక సాధారణ రూల్-బేస్డ్ చెక్ దానిని సరిగ్గా ఉందని నిర్ధారించింది. కానీ మా స్వతంత్ర ఎవాల్యుయేటర్ దానిని పట్టుకుంది. ఆ వైఫల్యాన్ని ఉపయోగించి మేము సిస్టమ్ను సరిదిద్దాము మరియు అది మళ్ళీ జరగకుండా ఉండటానికి ఒక టెస్ట్ను జోడించాము.
ఏజెంట్ మరింత తెలివైనదిగా మారాల్సిన అవసరం లేదు. లూప్ మరింత మెరుగ్గా డిజైన్ చేయబడాలి.
కేవలం ప్రాంప్ట్లపైనే దృష్టి పెట్టడం ఆపండి. నిర్మాణాన్ని (structure) గమనించండి.
మీరు ఎలాంటి లూప్ వైఫల్యాన్ని చూశారు? టోకెన్ స్పైరల్లా, బ్లైండ్ స్పాటా లేక ఆత్మవిశ్వాసంతో తప్పు చెప్పే ఏజెంట్లా?
Optional learning community: https://t.me/GyaanSetuAi