6 Bugs Only a Live Model Could Teach Us
ઓફલાઇન ટેસ્ટ જરૂરી છે. પરંતુ તે પૂરતા નથી.
મેં પેરુમાં પર્યાવરણીય પાલન (environmental compliance) ને ટ્રેક કરવા માટે AgentOps Debugger બનાવ્યું હતું. તે રેકોર્ડ્સ શોધવા અને રિપોર્ટ્સ લખવા માટે Qwen Cloud પર Qwen-plus નો ઉપયોગ કરે છે.
મેં સિસ્ટમને 'ઓફલાઇન-ફર્સ્ટ' ડિઝાઇન કરી હતી. મારા 315 ટેસ્ટ કોઈપણ નેટવર્ક કોલ્સ વગર ચાલ્યા. બધા ટેસ્ટ પાસ થયા. પરંતુ જ્યારે મેં Alibaba Cloud પર લાઈવ મોડલ પર સ્વિચ કર્યું, ત્યારે સિસ્ટમ તૂટી પડી.
કોડ બરાબર હતો. મોડલનું આઉટપુટ સમસ્યા હતી.
વાસ્તવિક દુનિયાના મોડલ ફેલ્યોર (failures) માંથી મળેલા છ પાઠ અહીં છે:
• લેબલ મિસમેચ (Label Mismatch) સ્કીમા (schema) "completed" અથવા "failed" ની અપેક્ષા રાખતું હતું. મોડલે "success" અથવા "done" મોકલ્યું. માત્ર એક શબ્દના કારણે પાર્સરે ઉપયોગી જવાબોને નકારી દીધા. સુધારો: સમાનાર્થી શબ્દોને નોર્મલાઈઝ કરવા માટે ટોલરન્ટ પ્રી-પ્રોસેસર્સનો ઉપયોગ કરો.
• ડિજનરેટ પ્લાન્સ (Degenerate Plans) પ્લાનર ક્યારેક કંઈ જ રિટર્ન કરતું નહોતું. એપ આ મૌનને સામાન્ય પ્રતિસાદમાં બદલવાનો પ્રયાસ કરતી હતી. આના કારણે ખોટા જવાબો મળતા હતા. સુધારો: પ્લાન ઇન્ટરપ્રેટર ઉમેરો. જો પ્લાન ખાલી હોય, તો ખોટું બોલવાને બદલે વપરાશકર્તાને જણાવો કે સિસ્ટમ પ્લાન કરવામાં નિષ્ફળ રહી છે.
• સ્કીમા ડ્રિફ્ટ (Schema Drift) મોડલે "documentTitle" જેવા ફીલ્ડ નામો બદલીને "title" કરી દીધા. તેણે અંગ્રેજી અને સ્પેનિશ લેબલ્સ પણ મિક્સ કરી દીધા. સુધારો: એલિયાસ મેપિંગ (alias mapping) નો ઉપયોગ કરો અને માન્ય ભાગોને બચાવો. જો એક સાઇટેશન ખરાબ હોય, તો બાકીના ચાર રાખો.
• અનપેયર્ડ ટાસ્ક (Unpaired Tasks) મોડલે રિપોર્ટ ડ્રાફ્ટ કરવાના બદલે તેને સેવ કરવાનું પૂછ્યું. લોજિક સુરક્ષિત હતું, પરંતુ યુઝર એક્સપિરિયન્સ બગડી ગયો હતો. સુધારો: કોડ દ્વારા ખૂટતા સ્ટેપ્સને ઓળખવા જોઈએ અને તેને આપમેળે ઉમેરવા જોઈએ.
• લૂપ એરર્સ (Loop Errors) વપરાશકર્તાએ જવાબ આપ્યા પછી પણ મોડલ વારંવાર એ જ સ્પષ્ટતાના પ્રશ્નો પૂછતું રહ્યું. સુધારો: એન્ટિટી રિઝોલ્યુશન (entity resolution) ને મોડલમાંથી કોડમાં ખસેડો. એકવાર વપરાશકર્તા ડેટા પૂરો પાડે, પછી સિસ્ટમ બાકીનું કામ ડિટરમિનિસ્ટિકલી (deterministically) સંભાળે છે.
• ખોટી અસ્પષ્ટતા (False Ambiguity) મોડલે દાવો કર્યો કે કંપનીનું નામ અસ્પષ્ટ હતું જ્યારે તે નહોતું. આના કારણે વર્કફ્લો અટકી ગયો. સુધારો: મોડલને અસ્પષ્ટતા સૂચવવા દો, પરંતુ તે વાસ્તવિક છે કે નહીં તેનો નિર્ણય ડેટાને લેવા દો.
મુખ્ય સિદ્ધાંત: LLM ને વર્ણન કરવા દો, પરંતુ તેને સ્ટ્રક્ચર્ડ આઉટકમ્સ (structured outcomes) નો માલિક ન બનાવો.
મોડલે ઇન્ટેન્ટ (intent), પ્લાનિંગ અને ભાષા સંભાળવી જોઈએ. કોડ એન્ટિટી રિઝોલ્યુશન, ચાર્ટ ડેટા અને રિપોર્ટ એસેમ્બલી સંભાળવો જોઈએ.
જ્યારે તમે દરેક નિષ્કર્ષને રેકોર્ડ સાથે સાંકળી શકો (trace કરી શકો), ત્યારે સિસ્ટમ વિશ્વાસપાત્ર બને છે. વાર્તા માટે મોડલનો ઉપયોગ કરો, પરંતુ સત્ય માટે તમારા કોડનો ઉપયોગ કરો.
Source: https://dev.to/ginollerena/six-bugs-only-a-live-model-could-teach-us-57k5
Optional learning community: https://t.me/GyaanSetuAi
