6 Bugs Only a Live Model Could Teach Us
ఆఫ్లైన్ పరీక్షలు అవసరం. కానీ అవి మాత్రమే సరిపోవు.
పెరూలో పర్యావరణ నిబంధనలను (environmental compliance) ట్రాక్ చేయడానికి నేను AgentOps Debuggerని రూపొందించాను. ఇది రికార్డులను కనుగొనడానికి మరియు నివేదికలను రాయడానికి Qwen Cloudలోని Qwen-plusని ఉపయోగిస్తుంది.
నేను ఈ సిస్టమ్ను ఆఫ్లైన్-ఫస్ట్ (offline-first) పద్ధతిలో రూపొందించాను. నా 315 పరీక్షలు ఎటువంటి నెట్వర్క్ కాల్స్ లేకుండానే విజయవంతంగా పూర్తయ్యాయి. అన్ని పరీక్షలు పాస్ అయ్యాయి. కానీ నేను Alibaba Cloudలోని లైవ్ మోడల్కు మారినప్పుడు, సిస్టమ్ విఫలమైంది.
కోడ్ బాగుంది. సమస్య మోడల్ అవుట్పుట్లో ఉంది.
వాస్తవ ప్రపంచ మోడల్ వైఫల్యాల నుండి నేర్చుకున్న ఆరు పాఠాలు ఇక్కడ ఉన్నాయి:
• Label Mismatch (లేబుల్ మిస్మ్యాచ్) స్కీమా "completed" లేదా "failed" అని ఆశించింది. కానీ మోడల్ "success" లేదా "done" అని పంపింది. కేవలం ఒకే ఒక్క పదం వల్ల పార్సర్ ఉపయోగకరమైన సమాధానాలను తిరస్కరించింది. పరిష్కారం: పర్యాయపదాలను (synonyms) నార్మలైజ్ చేయడానికి టాలరెంట్ ప్రీప్రాసెసర్లను ఉపయోగించండి.
• Degenerate Plans (డీజనరేట్ ప్లాన్స్) ప్లానర్ కొన్నిసార్లు ఏమీ తిరిగి ఇవ్వలేదు. యాప్ ఈ నిశ్శబ్దాన్ని ఒక సాధారణ స్పందనగా మార్చడానికి ప్రయత్నించింది. దీనివల్ల తప్పుడు సమాధానాలు వచ్చాయి. పరిష్కారం: ఒక ప్లాన్ ఇంటర్ప్రెటర్ను జోడించండి. ప్లాన్ ఖాళీగా ఉంటే, అబద్ధం చెప్పే బదులు సిస్టమ్ ప్లాన్ చేయడంలో విఫలమైందని వినియోగదారునికి తెలియజేయండి.
• Schema Drift (స్కీమా డ్రిఫ్ట్) మోడల్ "documentTitle" వంటి ఫీల్డ్ పేర్లను "title"గా మార్చేసింది. ఇది ఇంగ్లీష్ మరియు స్పానిష్ లేబుల్లను కూడా కలిపి పంపింది. పరిష్కారం: ఏలియాస్ మ్యాపింగ్ను ఉపయోగించి చెల్లుబాటు అయ్యే భాగాలను కాపాడుకోండి. ఒక సైటేషన్ (citation) తప్పుగా ఉన్నా, మిగిలిన నాలుగు సరిగ్గా ఉంటే వాటిని ఉంచండి.
• Unpaired Tasks (అన్పెయిర్డ్ టాస్క్లు) మోడల్ రిపోర్ట్ను డ్రాఫ్ట్ చేయకముందే దానిని సేవ్ చేయమని అడిగింది. లాజిక్ పరంగా ఇది సురక్షితమే అయినప్పటికీ, యూజర్ ఎక్స్పీరియన్స్ దెబ్బతిన్నది. పరిష్కారం: కోడ్ తప్పిపోయిన దశలను గుర్తించి, వాటిని ఆటోమేటిక్గా జోడించాలి.
• Loop Errors (లూప్ ఎర్రర్స్) వినియోగదారు సమాధానం ఇచ్చిన తర్వాత కూడా మోడల్ అదే వివరణాత్మక ప్రశ్నలను పదేపదే అడుగుతూనే ఉంది. పరిష్కారం: ఎంటిటీ రిజల్యూషన్ (entity resolution)ను మోడల్ నుండి కోడ్కు మార్చండి. వినియోగదారు డేటాను అందించిన తర్వాత, సిస్టమ్ మిగిలిన పనులను డెటెర్మినಿಸ್ಟిక్గా (deterministically) నిర్వహిస్తుంది.
• False Ambiguity (ఫాల్స్ అంబిగ్యుటీ) కంపెనీ పేరు స్పష్టంగా ఉన్నప్పటికీ, అది అంబిగ్యుయస్ (అస్పష్టంగా) ఉందని మోడల్ పేర్కొంది. దీనివల్ల వర్క్ఫ్లో ఆగిపోయింది. పరిష్కారం: అంబిగ్యుటీని సూచించడానికి మోడల్ను అనుమతించండి, కానీ అది నిజంగా అంబిగ్యుయస్ అవునా కాదా అనేది డేటా ద్వారా నిర్ణయించుకోండి.
ప్రధాన సూత్రం: LLMని కథ చెప్పడానికి (narrate) అనుమతించండి, కానీ స్ట్రక్చర్డ్ అవుట్కమ్స్ను (structured outcomes) దాని చేతుల్లో వదిలేయకండి.
మోడల్ ఉద్దేశ్యం (intent), ప్లానింగ్ మరియు భాషను నిర్వహించాలి. ఎంటిటీ రిజల్యూషన్, చార్ట్ డేటా మరియు రిపోర్ట్ అసెంబ్లీని కోడ్ నిర్వహించాలి.
ప్రతి ముగింపును (conclusion) ఒక రికార్డుకు అనుసంధానించగలిగినప్పుడు మాత్రమే సిస్టమ్ నమ్మదగినదిగా మారుతుంది. కథ కోసం మోడల్ను ఉపయోగించండి, కానీ నిజం కోసం మీ కోడ్ను ఉపయోగించండి.
Source: https://dev.to/ginollerena/six-bugs-only-a-live-model-could-teach-us-57k5
Optional learning community: https://t.me/GyaanSetuAi
