6 bugs que seul un modèle en direct peut nous enseigner
Les tests hors ligne sont nécessaires. Ils ne sont pas suffisants.
J'ai conçu AgentOps Debugger pour suivre la conformité environnementale au Pérou. Il utilise Qwen-plus sur Qwen Cloud pour trouver des enregistrements et rédiger des rapports.
J'ai conçu le système pour qu'il soit "offline-first". Mes 315 tests se sont déroulés sans aucun appel réseau. Tous les tests ont réussi. Mais lorsque je suis passé au modèle en direct sur Alibaba Cloud, le système a planté.
Le code était correct. Le problème venait de la sortie du modèle.
Voici les six leçons tirées de défaillances de modèles en conditions réelles :
• Incohérence d'étiquettes Le schéma attendait « completed » ou « failed ». Le modèle a envoyé « success » ou « done ». L'analyseur a rejeté des réponses utiles à cause d'un seul mot. Solution : Utilisez des préprocesseurs tolérants pour normaliser les synonymes.
• Plans dégénérés Le planificateur ne renvoyait parfois rien. L'application a tenté de transformer ce silence en une réponse normale. Cela a généré de fausses réponses. Solution : Ajoutez un interprète de plan. Si le plan est vide, informez l'utilisateur que le système n'a pas réussi à planifier au lieu de mentir.
• Dérive de schéma Le modèle a modifié des noms de champs comme « documentTitle » en « title ». Il a également mélangé des étiquettes en anglais et en espagnol. Solution : Utilisez un mappage d'alias et récupérez les parties valides. Si une citation est mauvaise, conservez les quatre autres.
• Tâches non appariées Le modèle a demandé d'enregistrer un rapport avant même d'en avoir rédigé un brouillon. La logique était sûre, mais l'expérience utilisateur était dégradée. Solution : Le code doit détecter les étapes manquantes et les insérer automatiquement.
• Erreurs de boucle Le modèle a continué à poser les mêmes questions de clarification même après la réponse de l'utilisateur. Solution : Transférez la résolution d'entités du modèle vers le code. Une fois que l'utilisateur fournit des données, le système gère le reste de manière déterministe.
• Fausse ambiguïté Le modèle a prétendu qu'un nom d'entreprise était ambigu alors qu'il ne l'était pas. Cela a interrompu le flux de travail. Solution : Laissez le modèle suggérer une ambiguïté, mais laissez les données décider si elle est réelle.
Le principe fondamental : Laissez le LLM narrer, mais ne le laissez pas gérer les résultats structurés.
Le modèle doit gérer l'intention, la planification et le langage. Le code doit gérer la résolution d'entités, les données de graphiques et l'assemblage de rapports.
Un système devient digne de confiance lorsque vous pouvez remonter chaque conclusion jusqu'à un enregistrement. Utilisez le modèle pour le récit, mais utilisez votre code pour la vérité.
Source: https://dev.to/ginollerena/six-bugs-only-a-live-model-could-teach-us-57k5
Optional learning community: https://t.me/GyaanSetuAi
