6 Bugs Only a Live Model Could Teach Us

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial6 કલાક પહેલાં2min read

6 Bugs Only a Live Model Could Teach Us

ઓફલાઇન ટેસ્ટ જરૂરી છે. પરંતુ તે પૂરતા નથી.

મેં પેરુમાં પર્યાવરણીય પાલન (environmental compliance) ને ટ્રેક કરવા માટે AgentOps Debugger બનાવ્યું હતું. તે રેકોર્ડ્સ શોધવા અને રિપોર્ટ્સ લખવા માટે Qwen Cloud પર Qwen-plus નો ઉપયોગ કરે છે.

મેં સિસ્ટમને 'ઓફલાઇન-ફર્સ્ટ' ડિઝાઇન કરી હતી. મારા 315 ટેસ્ટ કોઈપણ નેટવર્ક કોલ્સ વગર ચાલ્યા. બધા ટેસ્ટ પાસ થયા. પરંતુ જ્યારે મેં Alibaba Cloud પર લાઈવ મોડલ પર સ્વિચ કર્યું, ત્યારે સિસ્ટમ તૂટી પડી.

કોડ બરાબર હતો. મોડલનું આઉટપુટ સમસ્યા હતી.

વાસ્તવિક દુનિયાના મોડલ ફેલ્યોર (failures) માંથી મળેલા છ પાઠ અહીં છે:

• લેબલ મિસમેચ (Label Mismatch) સ્કીમા (schema) "completed" અથવા "failed" ની અપેક્ષા રાખતું હતું. મોડલે "success" અથવા "done" મોકલ્યું. માત્ર એક શબ્દના કારણે પાર્સરે ઉપયોગી જવાબોને નકારી દીધા. સુધારો: સમાનાર્થી શબ્દોને નોર્મલાઈઝ કરવા માટે ટોલરન્ટ પ્રી-પ્રોસેસર્સનો ઉપયોગ કરો.

• ડિજનરેટ પ્લાન્સ (Degenerate Plans) પ્લાનર ક્યારેક કંઈ જ રિટર્ન કરતું નહોતું. એપ આ મૌનને સામાન્ય પ્રતિસાદમાં બદલવાનો પ્રયાસ કરતી હતી. આના કારણે ખોટા જવાબો મળતા હતા. સુધારો: પ્લાન ઇન્ટરપ્રેટર ઉમેરો. જો પ્લાન ખાલી હોય, તો ખોટું બોલવાને બદલે વપરાશકર્તાને જણાવો કે સિસ્ટમ પ્લાન કરવામાં નિષ્ફળ રહી છે.

• સ્કીમા ડ્રિફ્ટ (Schema Drift) મોડલે "documentTitle" જેવા ફીલ્ડ નામો બદલીને "title" કરી દીધા. તેણે અંગ્રેજી અને સ્પેનિશ લેબલ્સ પણ મિક્સ કરી દીધા. સુધારો: એલિયાસ મેપિંગ (alias mapping) નો ઉપયોગ કરો અને માન્ય ભાગોને બચાવો. જો એક સાઇટેશન ખરાબ હોય, તો બાકીના ચાર રાખો.

• અનપેયર્ડ ટાસ્ક (Unpaired Tasks) મોડલે રિપોર્ટ ડ્રાફ્ટ કરવાના બદલે તેને સેવ કરવાનું પૂછ્યું. લોજિક સુરક્ષિત હતું, પરંતુ યુઝર એક્સપિરિયન્સ બગડી ગયો હતો. સુધારો: કોડ દ્વારા ખૂટતા સ્ટેપ્સને ઓળખવા જોઈએ અને તેને આપમેળે ઉમેરવા જોઈએ.

• લૂપ એરર્સ (Loop Errors) વપરાશકર્તાએ જવાબ આપ્યા પછી પણ મોડલ વારંવાર એ જ સ્પષ્ટતાના પ્રશ્નો પૂછતું રહ્યું. સુધારો: એન્ટિટી રિઝોલ્યુશન (entity resolution) ને મોડલમાંથી કોડમાં ખસેડો. એકવાર વપરાશકર્તા ડેટા પૂરો પાડે, પછી સિસ્ટમ બાકીનું કામ ડિટરમિનિસ્ટિકલી (deterministically) સંભાળે છે.

• ખોટી અસ્પષ્ટતા (False Ambiguity) મોડલે દાવો કર્યો કે કંપનીનું નામ અસ્પષ્ટ હતું જ્યારે તે નહોતું. આના કારણે વર્કફ્લો અટકી ગયો. સુધારો: મોડલને અસ્પષ્ટતા સૂચવવા દો, પરંતુ તે વાસ્તવિક છે કે નહીં તેનો નિર્ણય ડેટાને લેવા દો.

મુખ્ય સિદ્ધાંત: LLM ને વર્ણન કરવા દો, પરંતુ તેને સ્ટ્રક્ચર્ડ આઉટકમ્સ (structured outcomes) નો માલિક ન બનાવો.

મોડલે ઇન્ટેન્ટ (intent), પ્લાનિંગ અને ભાષા સંભાળવી જોઈએ. કોડ એન્ટિટી રિઝોલ્યુશન, ચાર્ટ ડેટા અને રિપોર્ટ એસેમ્બલી સંભાળવો જોઈએ.

જ્યારે તમે દરેક નિષ્કર્ષને રેકોર્ડ સાથે સાંકળી શકો (trace કરી શકો), ત્યારે સિસ્ટમ વિશ્વાસપાત્ર બને છે. વાર્તા માટે મોડલનો ઉપયોગ કરો, પરંતુ સત્ય માટે તમારા કોડનો ઉપયોગ કરો.

Source: https://dev.to/ginollerena/six-bugs-only-a-live-model-could-teach-us-57k5

Optional learning community: https://t.me/GyaanSetuAi

6 Bugs Only a Live Model Could Teach Us

Continue reading

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗛𝗮𝘃𝗲 𝗔 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗣𝗿𝗼𝗯𝗹𝗲𝗺

FailureDNAનું નિર્માણ: એક એજન્ટ મેમરી જે જાણે છે કે ક્યારે પોતાના પર વિશ્વાસ ન કરવો

મેં એક AI સિક્યુરિટી સ્કેનર બનાવ્યું — અને પછી મારા પોતાના ડિટેક્ટરમાં જ એક બગ શોધી કાઢ્યો

I Built An AI Security Scanner — Then Found A Bug In My Own Detector