Промпт-инжиниринг для синтетических данных

📅3 hours ago⏱2 min read

Промпт-инжиниринг для синтетических данных

Использование LLM для создания синтетических данных — популярная стратегия для QA-команд. Вы можете генерировать сотни сложных записей за считанные секунды.

Но обобщенные промпты — это ловушка. Если вы попросите LLM «сгенерировать 50 тестовых пользователей», она выдаст предсказуемые, повторяющиеся данные. Это создает ложное ощущение полноты покрытия. Вы получаете множество записей, которые тестируют только «счастливый путь» (happy path), упуская при этом критические граничные случаи и бизнес-логику.

Чтобы это исправить, вы должны перейти от роли заказчика к роли оркестратора. Вам нужно применять принципы тестирования непосредственно к промпт-инжинирингу.

Используйте эти три паттерна, чтобы повысить качество данных:

Классы эквивалентности и анализ граничных значений Вместо того чтобы просто запрашивать данные, заставьте LLM сначала составить карту тестовых классов. Используйте метод Chain-of-Thought (цепочка рассуждений).

Определите свою роль как Senior QA Engineer.
Укажите конкретные бизнес-правила (например, лимиты по купонам или минимальная сумма покупки).
Поручите LLM составить таблицу со всеми валидными и невалидными классами эквивалентности.
Требуйте ровно один JSON-объект (payload) для каждого выявленного сценария.

Это гарантирует, что вы протестируете точные точки перехода, такие как $99.99 против $100.00, не тратя место на избыточные записи.

Тестирование переходов состояний Для таких систем, как платежные шлюзы или управление заказами, данные должны отражать различные этапы жизненного цикла.

Предоставьте список всех возможных состояний (например, Created, Paid, Shipped, Delivered).
Попросите LLM сгенерировать CSV-файл, представляющий матрицу переходов состояний (State Transition Matrix).
Требуйте три типа потоков: линейный (валидный), исключительный (отклонения) и нарушение (невалидные переходы).
Установите правило: генерировать только одну строку для каждой уникальной комбинации состояний.

Это предотвращает дублирование записей и стимулирует создание негативных тест-кейсов.

Контроль вариативности и негативный промптинг LLM часто создают однородные данные, например, используя одни и те же регионы или возрастные группы. Используйте негативный промптинг (Negative Prompting), чтобы этого избежать.

Установите четкие требования к распределению (например, конкретные возрастные диапазоны или географические регионы).
Добавьте раздел «ЗАПРЕТЫ» (PROHIBITIONS).
Явно запретите использование типичных имен, таких как «John Doe».
Запретите повторение одних и тех же комбинаций переменных.
Запретите последовательные или идентичные ID-номера.

Это устраняет предвзятость и гарантирует, что ваш бэкенд сможет обрабатывать разнообразные, реалистичные данные.

Скорость ИИ приносит пользу только в том случае, если работа с данными является осознанной. Ваша роль как QA-специалиста заключается в написании ограничений, которые управляют этими генеративными моделями.

Источник: https://dev.to/lopesdoamaral/engenharia-de-prompts-para-massa-de-dados-escalando-testes-com-cobertura-e-sem-duplicidade-oba

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi

Промпт-инжиниринг для синтетических данных

Continue reading

𝗬𝗢𝗨𝗥 𝗔𝗚𝗘𝗡𝗧 𝗙𝗔𝗜𝗟𝗘𝗗 𝗜𝗡 𝗣𝗥𝗢𝗗. 𝗚𝗢𝗢𝗗 𝗟𝗨𝗖𝗞 𝗥𝗘𝗣𝗥𝗢𝗗𝗨𝗖𝗜𝗡𝗚 𝗜𝗧.

𝗧𝗵𝗶𝘀 𝗜𝘀 𝗔 𝗚𝗨𝗜𝗗𝗘 𝗧𝗢 𝗖𝗛𝗔𝗧𝗚𝗣𝗧 𝗣𝗥𝗢𝗠𝗣𝗧 𝗘𝗡𝗚𝗜𝗡𝗘𝗘𝗥𝗜𝗡𝗚

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

Введение в Gen AI для начинающих Python-разработчиков

Контекст-инжиниринг для промпт-инженеров