Промпт-інжиніринг для синтетичних даних

📅3 hours ago⏱2 min read

Промпт-інжиніринг для синтетичних даних

Використання LLM для створення синтетичних даних — це популярна стратегія для QA-команд. Ви можете генерувати сотні складних записів за лічені секунди.

Але загальні промпти ведуть у пастку. Якщо ви попросите LLM «згенерувати 50 тестових користувачів», вона видасть вам передбачувані, повторювані дані. Це створює хибне відчуття покриття. Ви отримуєте багато записів, які тестують лише «щасливий шлях» (happy path), пропускаючи критичні граничні випадки та бізнес-логіку.

Щоб виправити це, ви повинні перейти від ролі замовника до ролі оркестратора. Вам потрібно застосовувати принципи тестування безпосередньо до вашого промпт-інжинірингу.

Використовуйте ці три патерни, щоб покращити якість ваших даних:

Еквівалентне розбиття та аналіз граничних значень Замість того, щоб просто просити дані, змусьте LLM спочатку розробити класи тестування. Використовуйте промптинг типу Chain-of-Thought.

Визначте свою роль як Senior QA Engineer.
Надайте конкретні бізнес-правила (наприклад, ліміти купонів або мінімальна сума витрат).
Дайте LLM інструкцію перелічити всі валідні та невалідні класи еквівалентності в таблиці.
Вимагайте рівно один JSON payload для кожного визначеного сценарію.

Це гарантує, що ви протестуєте точні точки переходу, як-от $99.99 проти $100.00, не витрачаючи місце на надлишкові записи.

Тестування переходів станів Для таких систем, як платіжні потоки або управління замовленнями, дані мають відображати різні етапи життєвого циклу.

Надайте список усіх можливих станів (наприклад, Created, Paid, Shipped, Delivered).
Попросіть LLM згенерувати CSV, що охоплює матрицю переходів станів (State Transition Matrix).
Вимагайте три типи потоків: лінійний (валідний), винятковий (відхилення) та порушення (невалідні переходи).
Встановіть правило генерувати лише один рядок для кожної унікальної комбінації станів.

Це запобігає дублюванню записів і стимулює створення негативних тест-кейсів.

Контроль варіативності та негативний промптинг LLM часто створюють однорідні дані, наприклад, використовуючи одні й ті самі регіони або вікові групи. Використовуйте негативний промптинг, щоб зупинити це.

Встановіть чіткі вимоги до розподілу (наприклад, конкретні вікові діапазони або географічні регіони).
Додайте розділ «PROHIBITIONS».
Явно забороніть загальні імена, такі як «John Doe».
Забороніть повторювати однакові комбінації змінних.
Забороніть послідовні або ідентичні номери ID.

Це усуває упередженість і гарантує, що ваш бекенд коректно обробляє різноманітні, реалістичні дані.

Швидкість ШІ приносить користь лише тоді, коли ваші дані є цілеспрямованими. Ваша роль як QA-фахівця полягає в тому, щоб кодувати обмеження, які керують цими генеративними моделями.

Джерело: https://dev.to/lopesdoamaral/engenharia-de-prompts-para-massa-de-dados-escalando-testes-com-cobertura-e-sem-duplicidade-oba

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi

Промпт-інжиніринг для синтетичних даних

Continue reading

𝗬𝗢𝗨𝗥 𝗔𝗚𝗘𝗡𝗧 𝗙𝗔𝗜𝗟𝗘𝗗 𝗜𝗡 𝗣𝗥𝗢𝗗. 𝗚𝗢𝗢𝗗 𝗟𝗨𝗖𝗞 𝗥𝗘𝗣𝗥𝗢𝗗𝗨𝗖𝗜𝗡𝗚 𝗜𝗧.

𝗧𝗵𝗶𝘀 𝗜𝘀 𝗔 𝗚𝗨𝗜𝗗𝗘 𝗧𝗢 𝗖𝗛𝗔𝗧𝗚𝗣𝗧 𝗣𝗥𝗢𝗠𝗣𝗧 𝗘𝗡𝗚𝗜𝗡𝗘𝗘𝗥𝗜𝗡𝗚

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

Вступ до Gen AI для початківців у Python

Контекстний інжиніринг для промпт-інженерів