合成データのためのプロンプトエンジニアリング

📅3 hours ago⏱2 min read

LLMを使用して合成データを作成することは、QAチームにとって一般的な戦略です。数百もの複雑なレコードを数秒で生成できます。

しかし、汎用的なプロンプトには罠があります。LLMに「50人のテストユーザーを生成して」と頼むと、予測可能で繰り返しの多いデータが返ってきます。これは、テストカバレッジが十分であるという誤った感覚を生みます。多くのレコードが「ハッピーパス」のみをテストすることになり、重要なエッジケースやビジネスロジックを見逃してしまうのです。

これを解決するには、単なるリクエスター（依頼者）からオーケストレーター（調整役）へと進化する必要があります。テストの原則をプロンプトエンジニアリングに直接適用しなければなりません。

データ品質を向上させるために、以下の3つのパターンを活用してください。

同値分割法と境界値分析データを要求する代わりに、まずLLMにテストクラスをマッピングさせます。Chain-of-Thought（思考の連鎖）プロンプティングを使用してください。

ロールを「シニアQAエンジニア」として定義する。
具体的なビジネスルール（例：クーポンの制限や最低購入金額）を提供する。
すべての有効な同値クラスと無効な同値クラスをテーブル形式でリストアップするようLLMに指示する。
特定されたシナリオごとに、正確に1つのJSONペイロードを要求する。

これにより、冗長なレコードでスペースを無駄にすることなく、$99.99対$100.00のような正確な遷移ポイントをテストできるようになります。

状態遷移テスト決済フローや注文管理のようなシステムでは、データはライフサイクルの異なるステージを反映している必要があります。

考えられるすべての状態のリスト（例：作成済み、支払い済み、出荷済み、配達済み）を提供する。
状態遷移行列を網羅したCSVを生成するようLLMに依頼する。
3種類のフロー（リニア（有効）、例外（逸脱）、違反（無効な遷移））を要求する。
ユニークな状態の組み合わせごとに、1行だけを生成するルールを設定する。

これにより、重複レコードを防ぎ、ネガティブテストケースの作成を強制できます。

バリアンス制御とネガティブプロンプティング LLMは、同じ地域や年齢層を使用するなど、均質なデータを生成しがちです。これを防ぐためにネガティブプロンプティングを使用します。

分布に関する明示的な要件（例：特定の年齢層や地理的地域）を設定する。
「禁止事項（PROHIBITIONS）」セクションを追加する。
「John Doe」のような汎用的な名前を明示的に禁止する。
変数の同じ組み合わせの繰り返しを禁止する。
連番や同一のID番号を禁止する。

これによりバイアスを排除し、バックエンドが多様で現実的なデータを処理できるようにします。

AIのスピードは、データが意図的なものであって初めて価値をもたらします。QAプロフェッショナルとしてのあなたの役割は、これらの生成モデルを制御する制約をコード化することです。

出典: https://dev.to/lopesdoamaral/engenharia-de-prompts-para-massa-de-dados-escalando-testes-com-cobertura-e-sem-duplicidade-oba

自由参加の学習コミュニティ: https://t.me/GyaanSetuAi

合成データのためのプロンプトエンジニアリング

Continue reading

𝗬𝗢𝗨𝗥 𝗔𝗚𝗘𝗡𝗧 𝗙𝗔𝗜𝗟𝗘𝗗 𝗜𝗡 𝗣𝗥𝗢𝗗. 𝗚𝗢𝗢𝗗 𝗟𝗨𝗖𝗞 𝗥𝗘𝗣𝗥𝗢𝗗𝗨𝗖𝗜𝗡𝗚 𝗜𝗧.

𝗧𝗵𝗶𝘀 𝗜𝘀 𝗔 𝗚𝗨𝗜𝗗𝗘 𝗧𝗢 𝗖𝗛𝗔𝗧𝗚𝗣𝗧 𝗣𝗥𝗢𝗠𝗣𝗧 𝗘𝗡𝗚𝗜𝗡𝗘𝗘𝗥𝗜𝗡𝗚

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

Python初心者向け生成AI入門

プロンプトエンジニアのためのコンテキストエンジニアリング