6 bugs die alleen een live model ons kon leren

Offline tests zijn noodzakelijk. Ze zijn niet voldoende.

Ik heb AgentOps Debugger gebouwd om de naleving van milieuregels in Peru te volgen. Het gebruikt Qwen-plus op Qwen Cloud om gegevens te vinden en rapporten te schrijven.

Ik heb het systeem ontworpen met een offline-first benadering. Mijn 315 tests draaiden zonder enige netwerkoproepen. Alle tests slaagden. Maar toen ik overschakelde naar het live model op Alibaba Cloud, ging het systeem kapot.

De code was in orde. De output van het model was het probleem.

Hier zijn de zes lessen uit mislukkingen van modellen in de echte wereld:

• Label Mismatch Het schema verwachtte "completed" of "failed". Het model stuurde "success" of "done". De parser wees nuttige antwoorden af vanwege één enkel woord. Fix: Gebruik tolerante preprocessors om synoniemen te normaliseren.

• Degeneratieve plannen De planner gaf soms niets terug. De app probeerde deze stilte om te zetten in een normaal antwoord. Dit creëerde valse antwoorden. Fix: Voeg een plan-interpreter toe. Als het plan leeg is, vertel de gebruiker dan dat het systeem niet in staat was een plan te maken, in plaats van te liegen.

• Schema Drift Het model veranderde veldnamen zoals "documentTitle" naar "title". Het mengde ook Engelse en Spaanse labels. Fix: Gebruik alias-mapping en red de geldige onderdelen. Als één citatie fout is, behoud dan de andere vier.

• Ontkoppelde taken Het model vroeg om een rapport op te slaan voordat het er zelfs maar een had opgesteld. De logica was veilig, maar de gebruikerservaring was verstoord. Fix: De code moet ontbrekende stappen detecteren en deze automatisch invoegen.

• Loop-fouten Het model bleef dezelfde verduidelijkende vragen stellen, zelfs nadat de gebruiker had geantwoord. Fix: Verplaats entity resolution van het model naar de code. Zodra een gebruiker gegevens verstrekt, handelt het systeem de rest deterministisch af.

• Valse ambiguïteit Het model beweerde dat een bedrijfsnaam ambigu was, terwijl dat niet zo was. Dit onderbrak de workflow. Fix: Laat het model ambiguïteit suggereren, maar laat de data bepalen of het echt is.

Het belangrijkste principe: Laat het LLM het verhaal vertellen, maar laat het niet de eigenaar zijn van gestructureerde uitkomsten.

Het model moet intentie, planning en taal afhandelen. De code moet entity resolution, grafiekgegevens en de assemblage van rapporten afhandelen.

Een systeem wordt betrouwbaar wanneer je elke conclusie kunt herleiden naar een record. Gebruik het model voor het verhaal, maar gebruik je code voor de waarheid.

Bron: https://dev.to/ginollerena/six-bugs-only-a-live-model-could-teach-us-57k5

Optionele leercommunity: https://t.me/GyaanSetuAi