Kỹ thuật Prompt cho Dữ liệu Tổng hợp

📅3 hours ago⏱2 min read

Kỹ thuật Prompt cho Dữ liệu Tổng hợp

Sử dụng LLM để tạo dữ liệu tổng hợp là một chiến lược phổ biến cho các đội ngũ QA. Bạn có thể tạo ra hàng trăm bản ghi phức tạp chỉ trong vài giây.

Nhưng các prompt chung chung sẽ dẫn đến một cái bẫy. Nếu bạn yêu cầu LLM "tạo 50 người dùng thử nghiệm", nó sẽ đưa cho bạn dữ liệu dễ đoán và lặp đi lặp lại. Điều này tạo ra một cảm giác giả tạo về độ bao phủ (coverage). Bạn nhận được nhiều bản ghi chỉ kiểm tra "happy path" (luồng xử lý chuẩn) trong khi bỏ lỡ các trường hợp biên (edge cases) và logic nghiệp vụ quan trọng.

Để khắc phục điều này, bạn phải chuyển từ vai trò người yêu cầu sang vai trò người điều phối (orchestrator). Bạn cần áp dụng trực tiếp các nguyên tắc kiểm thử vào kỹ thuật prompt của mình.

Sử dụng ba mô hình sau để cải thiện chất lượng dữ liệu của bạn:

Phân vùng tương đương và Phân tích giá trị biên Thay vì chỉ yêu cầu dữ liệu, hãy buộc LLM phải lập bản đồ các lớp kiểm thử (test classes) trước. Hãy sử dụng kỹ thuật Chain-of-Thought prompting.

Xác định vai trò của bạn là Kỹ sư QA Cao cấp (Senior QA Engineer).
Cung cấp các quy tắc nghiệp vụ cụ thể (ví dụ: giới hạn mã giảm giá hoặc mức chi tiêu tối thiểu).
Hướng dẫn LLM liệt kê tất cả các lớp tương đương hợp lệ và không hợp lệ vào một bảng.
Yêu cầu chính xác một JSON payload cho mỗi kịch bản đã xác định.

Điều này đảm bảo bạn kiểm tra chính xác các điểm chuyển đổi, chẳng hạn như $99.99 so với $100.00, mà không lãng phí không gian cho các bản ghi dư thừa.

Kiểm thử chuyển đổi trạng thái Đối với các hệ thống như luồng thanh toán hoặc quản lý đơn hàng, dữ liệu phải phản ánh các giai đoạn khác nhau của một vòng đời.

Cung cấp danh sách tất cả các trạng thái có thể có (ví dụ: Created, Paid, Shipped, Delivered).
Yêu cầu LLM tạo một tệp CSV bao gồm Ma trận chuyển đổi trạng thái (State Transition Matrix).
Yêu cầu ba loại luồng: Tuyến tính (hợp lệ), Ngoại lệ (sai lệch), và Vi phạm (chuyển đổi không hợp lệ).
Thiết lập quy tắc chỉ tạo một hàng cho mỗi tổ hợp trạng thái duy nhất.

Điều này giúp ngăn chặn các bản ghi trùng lặp và buộc phải tạo ra các trường hợp kiểm thử tiêu cực (negative test cases).

Kiểm soát biến thể và Negative Prompting Các LLM thường tạo ra dữ liệu đồng nhất, chẳng hạn như sử dụng cùng một khu vực hoặc nhóm tuổi. Hãy sử dụng Negative Prompting để ngăn chặn điều này.

Thiết lập các yêu cầu rõ ràng về phân phối (ví dụ: các khoảng tuổi hoặc khu vực địa lý cụ thể).
Thêm một phần "PROHIBITIONS" (CÁC ĐIỀU CẤM).
Cấm rõ ràng các tên chung chung như "John Doe".
Cấm lặp lại cùng một tổ hợp các biến.
Cấm các số ID liên tiếp hoặc giống hệt nhau.

Điều này loại bỏ sự thiên kiến và đảm bảo backend của bạn xử lý được dữ liệu đa dạng và thực tế.

Tốc độ của AI chỉ mang lại giá trị nếu dữ liệu của bạn có tính chủ đích. Vai trò của bạn với tư cách là một chuyên gia QA là lập trình các ràng buộc để kiểm soát các mô hình tạo sinh này.

Nguồn: https://dev.to/lopesdoamaral/engenharia-de-prompts-para-massa-de-dados-escalando-testes-com-cobertura-e-sem-duplicidade-oba

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi

Kỹ thuật Prompt cho Dữ liệu Tổng hợp

Continue reading

𝗬𝗢𝗨𝗥 𝗔𝗚𝗘𝗡𝗧 𝗙𝗔𝗜𝗟𝗘𝗗 𝗜𝗡 𝗣𝗥𝗢𝗗. 𝗚𝗢𝗢𝗗 𝗟𝗨𝗖𝗞 𝗥𝗘𝗣𝗥𝗢𝗗𝗨𝗖𝗜𝗡𝗚 𝗜𝗧.

𝗧𝗵𝗶𝘀 𝗜𝘀 𝗔 𝗚𝗨𝗜𝗗𝗘 𝗧𝗢 𝗖𝗛𝗔𝗧𝗚𝗣𝗧 𝗣𝗥𝗢𝗠𝗣𝗧 𝗘𝗡𝗚𝗜𝗡𝗘𝗘𝗥𝗜𝗡𝗚

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

Giới thiệu về Gen AI cho người mới bắt đầu học Python

Kỹ thuật ngữ cảnh dành cho Kỹ sư Prompt