Prompts reichen nicht aus: Durchsetzung harter Constraints bei LLM-Ausgaben

LLM-Demos sehen großartig aus, bis sie auf strikte Anforderungen treffen.

Modelle arbeiten mit Wahrscheinlichkeiten. Produktionssysteme benötigen Garantien.

Das habe ich gelernt, als ich eine KI-News-Pipeline für Radio del Volga in Argentinien entwickelt habe. Das System schreibt Nachrichten um und erstellt Social-Media-Posts. Es funktionierte gut, bis ein Problem auftrat: Gemini schrieb ständig in der falschen spanischen Sprachvariante.

In Argentinien verwenden die Menschen spezifische Wörter. Sie sagen „podés“ statt „puedes“ und „sos“ statt „eres“. Wenn das Modell neutrales Spanisch verwendet, fühlt sich der Text für die Leser vor Ort falsch an.

Zuerst habe ich es mit besserem Prompting versucht. Ich habe dem Modell gesagt:

Das half zwar, löste aber nicht alles. Formelle Nachrichtenquellen drängten das Modell zurück zum neutralen Spanisch. Egal, wie viel ich in den Prompt schrieb, die Fehler blieben bestehen.

Ich hörte auf, dies als Prompting-Problem zu betrachten. Ich begann, es als Validierungsproblem zu behandeln.

Manche Dinge sind probabilistisch, wie Tonfall oder Stil. Andere Dinge sind deterministisch. Wenn ein Text „puedes“ enthält, ist er falsch. Man braucht keine KI, um das festzustellen. Man braucht einfachen Code.

Ich habe einen Post-Processing-Schritt hinzugefügt. Er läuft, nachdem die KI fertig ist. Er sucht nach spezifischen Wörtern und ersetzt sie:

Diese Liste ist klein und sicher. Ich versuche nicht, das gesamte Spanische zu korrigieren. Ich korrigiere nur die Regeln, die Code mit Sicherheit verifizieren kann.

Bei der Lektion geht es nicht um Spanisch. Es geht um die Grenzen des Prompt Engineerings.

Prompting verbessert die Leistung, liefert aber keine Garantien. Wenn eine Regel stabil und testbar ist, verwende Code, um sie durchzusetzen.

Nutze LLMs, um flüssige Texte zu generieren. Nutze deterministischen Code, um Markenbegriffe, regulatorische Formulierungen und Formatierungsregeln durchzusetzen.

Zuverlässige Systeme teilen die Verantwortlichkeiten auf: • Das Modell generiert den Inhalt. • Code setzt die harten Regeln durch. • Menschen treffen die endgültige redaktionelle Entscheidung.

Source: https://dev.to/zendev2112/prompts-arent-enough-enforcing-hard-constraints-on-llm-output-2hpo

Optional learning community: https://t.me/GyaanSetuAi