Prompt Engineering für synthetische Daten

📅3 hours ago⏱2 min read

Prompt Engineering für synthetische Daten

Die Verwendung von LLMs zur Erstellung synthetischer Daten ist eine beliebte Strategie für QA-Teams. Sie können in Sekundenschnelle hunderte komplexe Datensätze generieren.

Aber generische Prompts führen in eine Falle. Wenn Sie ein LLM bitten, „50 Testbenutzer zu generieren“, liefert es Ihnen vorhersehbare, repetitive Daten. Dies erzeugt eine falsche Sicherheit bezüglich der Testabdeckung. Sie erhalten viele Datensätze, die nur den „Happy Path“ testen, während kritische Edge Cases und die Geschäftslogik unberücksichtigt bleiben.

Um dies zu beheben, müssen Sie sich vom bloßen Anfordersteller zum Orchestrator entwickeln. Sie müssen Testprinzipien direkt auf Ihr Prompt Engineering anwenden.

Nutzen Sie diese drei Muster, um Ihre Datenqualität zu verbessern:

Äquivalenzklassenbildung und Grenzwertanalyse Anstatt einfach nach Daten zu fragen, zwingen Sie das LLM dazu, zuerst Testklassen zu definieren. Nutzen Sie Chain-of-Thought-Prompting.

Definieren Sie Ihre Rolle als Senior QA Engineer.
Geben Sie spezifische Geschäftsregeln an (z. B. Gutscheinlimits oder Mindestbestellwerte).
Weisen Sie das LLM an, alle gültigen und ungültigen Äquivalenzklassen in einer Tabelle aufzulisten.
Verlangen Sie genau einen JSON-Payload pro identifiziertem Szenario.

Dies stellt sicher, dass Sie exakte Übergangspunkte testen, wie z. B. 99,99 $ vs. 100,00 $, ohne Platz für redundante Datensätze zu verschwenden.

Zustandsübergangstests Bei Systemen wie Zahlungsabläufen oder der Auftragsverwaltung müssen die Daten verschiedene Phasen eines Lebenszyklus widerspiegeln.

Geben Sie eine Liste aller möglichen Zustände an (z. B. Erstellt, Bezahlt, Versandt, Geliefert).
Bitten Sie das LLM, eine CSV-Datei zu generieren, die eine Zustandsübergangsmatrix (State Transition Matrix) abdeckt.
Verlangen Sie drei Arten von Abläufen: Linear (gültig), Exception (Abweichungen) und Violation (ungültige Übergänge).
Legen Sie eine Regel fest, dass pro eindeutiger Zustandskombination nur eine Zeile generiert werden darf.

Dies verhindert doppelte Datensätze und erzwingt die Erstellung von negativen Testfällen.

Varianzkontrolle und Negative Prompting LLMs produzieren oft homogene Daten, indem sie beispielsweise immer dieselben Regionen oder Altersgruppen verwenden. Nutzen Sie Negative Prompting, um dies zu verhindern.

Legen Sie explizite Anforderungen an die Verteilung fest (z. B. spezifische Altersgruppen oder geografische Regionen).
Fügen Sie einen Abschnitt „VERBOTE“ (PROHIBITIONS) hinzu.
Verbieten Sie explizit generische Namen wie „John Doe“.
Verbieten Sie die Wiederholung derselben Variablenkombinationen.
Verbieten Sie sequentielle oder identische ID-Nummern.

Dies eliminiert Bias und stellt sicher, dass Ihr Backend mit vielfältigen, realistischen Daten umgehen kann.

Die Geschwindigkeit von KI bietet nur dann einen Mehrwert, wenn Ihre Daten gezielt eingesetzt werden. Ihre Rolle als QA-Experte besteht darin, die Randbedingungen zu programmieren, die diese generativen Modelle steuern.

Quelle: https://dev.to/lopesdoamaral/engenharia-de-prompts-para-massa-de-dados-escalando-testes-com-cobertura-e-sem-duplicidade-oba

Optionale Lern-Community: https://t.me/GyaanSetuAi

Prompt Engineering für synthetische Daten

Continue reading

𝗬𝗢𝗨𝗥 𝗔𝗚𝗘𝗡𝗧 𝗙𝗔𝗜𝗟𝗘𝗗 𝗜𝗡 𝗣𝗥𝗢𝗗. 𝗚𝗢𝗢𝗗 𝗟𝗨𝗖𝗞 𝗥𝗘𝗣𝗥𝗢𝗗𝗨𝗖𝗜𝗡𝗚 𝗜𝗧.

𝗧𝗵𝗶𝘀 𝗜𝘀 𝗔 𝗚𝗨𝗜𝗗𝗘 𝗧𝗢 𝗖𝗛𝗔𝗧𝗚𝗣𝗧 𝗣𝗥𝗢𝗠𝗣𝗧 𝗘𝗡𝗚𝗜𝗡𝗘𝗘𝗥𝗜𝗡𝗚

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

𝗜𝗻𝘁𝗿𝗼 𝘁𝗼 𝗚𝗲𝗻 𝗔𝗜 𝗳𝗼𝗿 𝗣𝘆𝘁𝗵𝗼𝗻 𝗕𝗲𝗴𝗶𝗻𝗻𝗲𝗿𝘀

Context Engineering für Prompt Engineers