Kejuruteraan Prompt untuk Data Sintetik

📅3 hours ago⏱2 min read

𝗣𝗿𝗼𝗺𝗽𝘁 𝗘𝗻𝗴𝗶𝗻𝗲𝗲𝗿𝗶𝗻𝗴 𝗳𝗼𝗿 𝗦𝘆𝗻𝘁𝗵𝗲𝘁𝗶𝗰 𝗗𝗮𝘁𝗮

Menggunakan LLM untuk mencipta data sintetik adalah strategi popular bagi pasukan QA. Anda boleh menjana ratusan rekod yang kompleks dalam masa beberapa saat sahaja.

Namun, prompt yang generik boleh menjerat anda. Jika anda meminta LLM untuk "jana 50 pengguna ujian," ia akan memberikan data yang mudah diramal dan berulang. Ini mewujudkan rasa liputan (coverage) yang palsu. Anda akan mendapat banyak rekod yang hanya menguji "laluan senang" (happy path) sambil terlepas kes pinggir (edge cases) yang kritikal dan logik perniagaan.

Untuk mengatasi masalah ini, anda mesti beralih daripada sekadar peminta kepada seorang pengatur (orchestrator). Anda perlu menerapkan prinsip pengujian secara langsung ke dalam kejuruteraan prompt anda.

Gunakan tiga corak ini untuk meningkatkan kualiti data anda:

Pembahagian Kesetaraan (Equivalence Partitioning) dan Analisis Nilai Sempadan (Boundary Value Analysis) Daripada sekadar meminta data, paksa LLM untuk memetakan kelas ujian terlebih dahulu. Gunakan teknik prompting Chain-of-Thought.

Tetapkan peranan anda sebagai Jurutera QA Kanan.
Berikan peraturan perniagaan yang khusus (contohnya, had kupon atau perbelanjaan minimum).
Arahkan LLM untuk menyenaraikan semua kelas kesetaraan yang sah dan tidak sah dalam bentuk jadual.
Tuntut tepat satu payload JSON bagi setiap senario yang dikenal pasti.

Ini memastikan anda menguji titik peralihan yang tepat, seperti $99.99 berbanding $100.00, tanpa membazirkan ruang dengan rekod yang berlebihan.

Pengujian Peralihan Keadaan (State Transition Testing) Bagi sistem seperti aliran pembayaran atau pengurusan pesanan, data mestilah mencerminkan pelbagai peringkat dalam kitaran hayat.

Berikan senarai semua keadaan yang mungkin (contohnya, Dicipta, Dibayar, Dihantar, Diterima).
Minta LLM untuk menjana CSV yang merangkumi Matriks Peralihan Keadaan (State Transition Matrix).
Tuntut tiga jenis aliran: Linear (sah), Pengecualian (penyimpangan), dan Pelanggaran (peralihan tidak sah).
Tetapkan peraturan untuk menjana hanya satu baris bagi setiap kombinasi keadaan yang unik.

Ini mengelakkan rekod pendua dan memaksa penghasilan kes ujian negatif.

Kawalan Varians dan Prompting Negatif (Negative Prompting) LLM sering menghasilkan data yang homogen, seperti menggunakan wilayah atau kumpulan umur yang sama. Gunakan Prompting Negatif untuk menghentikan perkara ini.

Tetapkan keperluan eksplisit untuk taburan (contohnya, julat umur atau wilayah geografi yang khusus).
Tambahkan bahagian "LARANGAN" (PROHIBITIONS).
Larang secara eksplisit nama generik seperti "John Doe."
Larang pengulangan kombinasi pemboleh ubah yang sama.
Larang nombor ID yang berturutan atau serupa.

Ini menghapuskan bias dan memastikan backend anda mengendalikan data yang pelbagai dan realistik.

Kelajuan AI hanya memberikan nilai jika data anda dirancang dengan sengaja. Peranan anda sebagai profesional QA adalah untuk mengekod kekangan yang mengawal model generatif ini.

Sumber: https://dev.to/lopesdoamaral/engenharia-de-prompts-para-massa-de-dados-escalando-testes-com-cobertura-e-sem-duplicidade-oba

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi

Kejuruteraan Prompt untuk Data Sintetik

Continue reading

𝗬𝗢𝗨𝗥 𝗔𝗚𝗘𝗡𝗧 𝗙𝗔𝗜𝗟𝗘𝗗 𝗜𝗡 𝗣𝗥𝗢𝗗. 𝗚𝗢𝗢𝗗 𝗟𝗨𝗖𝗞 𝗥𝗘𝗣𝗥𝗢𝗗𝗨𝗖𝗜𝗡𝗚 𝗜𝗧.

𝗧𝗵𝗶𝘀 𝗜𝘀 𝗔 𝗚𝗨𝗜𝗗𝗘 𝗧𝗢 𝗖𝗛𝗔𝗧𝗚𝗣𝗧 𝗣𝗥𝗢𝗠𝗣𝗧 𝗘𝗡𝗚𝗜𝗡𝗘𝗘𝗥𝗜𝗡𝗚

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

Pengenalan kepada Gen AI untuk Pemula Python

Kejuruteraan Konteks untuk Jurutera Prompt