𝗣𝗿𝗼𝗺𝗽𝘁 𝗘𝗻𝗴𝗶𝗻𝗲𝗲𝗿𝗶𝗻𝗴 𝗳𝗼𝗿 𝗦𝘆𝗻𝘁𝗵𝗲𝘁𝗶𝗰 𝗗𝗮𝘁𝗮

📅3 hours ago⏱2 min read

ಸಿಂಥೆಟಿಕ್ ಡೇಟಾವನ್ನು (synthetic data) ರಚಿಸಲು LLMಗಳನ್ನು ಬಳಸುವುದು QA ತಂಡಗಳಿಗೆ ಒಂದು ಜನಪ್ರಿಯ ತಂತ್ರವಾಗಿದೆ. ನೀವು ಸೆಕೆಂಡುಗಳಲ್ಲಿ ನೂರಾರು ಸಂಕೀರ್ಣ ದಾಖಲೆಗಳನ್ನು (records) ಸೃಷ್ಟಿಸಬಹುದು.

ಆದರೆ ಸಾಮಾನ್ಯ ಪ್ರಾಂಪ್ಟ್‌ಗಳು (generic prompts) ಒಂದು ಬಲೆಯಲ್ಲಿ ಸಿಲುಕುವಂತೆ ಮಾಡುತ್ತವೆ. ನೀವು LLMಗೆ "50 ಟೆಸ್ಟ್ ಬಳಕೆದಾರರನ್ನು ರಚಿಸಿ" ಎಂದು ಕೇಳಿದರೆ, ಅದು ನಿಮಗೆ ಊಹಿಸಬಹುದಾದ ಮತ್ತು ಪುನರಾವರ್ತಿತ ಡೇಟಾವನ್ನು ನೀಡುತ್ತದೆ. ಇದು ಕವರೇಜ್‌ನ ಬಗ್ಗೆ ತಪ್ಪು ಕಲ್ಪನೆಯನ್ನು ನೀಡುತ್ತದೆ. ನೀವು ಕೇವಲ "happy path" ಅನ್ನು ಮಾತ್ರ ಪರೀಕ್ಷಿಸುವ ಅನೇಕ ದಾಖಲೆಗಳನ್ನು ಪಡೆಯುತ್ತೀರಿ, ಆದರೆ ನಿರ್ಣಾಯಕ ಎಡ್ಜ್ ಕೇಸ್‌ಗಳು (edge cases) ಮತ್ತು ಬಿಸಿನೆಸ್ ಲಾಜಿಕ್‌ಗಳನ್ನು ಮಿಸ್ ಮಾಡುತ್ತೀರಿ.

ಇದನ್ನು ಸರಿಪಡಿಸಲು, ನೀವು ಕೇವಲ ವಿನಂತಿ ಮಾಡುವವರಿಂದ (requester) ಬದಲಾಗಿ ಸಂಯೋಜಕನಾಗಿ (orchestrator) ಬದಲಾಗಬೇಕು. ನೀವು ನಿಮ್ಮ ಪ್ರಾಂಪ್ಟ್ ಇಂಜಿನಿಯರಿಂಗ್‌ಗೆ ನೇರವಾಗಿ ಟೆಸ್ಟಿಂಗ್ ತತ್ವಗಳನ್ನು ಅನ್ವಯಿಸಬೇಕಾಗುತ್ತದೆ.

ನಿಮ್ಮ ಡೇಟಾ ಗುಣಮಟ್ಟವನ್ನು ಸುಧಾರಿಸಲು ಈ ಮೂರು ಮಾದರಿಗಳನ್ನು ಬಳಸಿ:

Equivalence Partitioning ಮತ್ತು Boundary Value Analysis ಡೇಟಾವನ್ನು ಕೇಳುವ ಬದಲು, ಮೊದಲು ಟೆಸ್ಟ್ ಕ್ಲಾಸ್‌ಗಳನ್ನು (test classes) ನಕ್ಷೆ ಮಾಡಲು LLM ಅನ್ನು ಒತ್ತಾಯಿಸಿ. Chain-of-Thought ಪ್ರಾಂಪ್ಟಿಂಗ್ ಬಳಸಿ.

ನಿಮ್ಮ ಪಾತ್ರವನ್ನು ಸೀನಿಯರ್ QA ಇಂಜಿನಿಯರ್ ಎಂದು ವ್ಯಾಖ್ಯಾನಿಸಿ.
ನಿರ್ದಿಷ್ಟ ಬಿಸಿನೆಸ್ ನಿಯಮಗಳನ್ನು ನೀಡಿ (ಉದಾಹರಣೆಗೆ, ಕೂಪನ್ ಮಿತಿಗಳು ಅಥವಾ ಕನಿಷ್ಠ ಖರ್ಚು).
ಎಲ್ಲಾ ಮಾನ್ಯ (valid) ಮತ್ತು ಅಮಾನ್ಯ (invalid) ইকವಿವಲೆನ್ಸ್ ಕ್ಲಾಸ್‌ಗಳನ್ನು ಪಟ್ಟಿಯಲ್ಲಿ ನೀಡಲು LLMಗೆ ಸೂಚಿಸಿ.
ಗುರುತಿಸಲಾದ ಪ್ರತಿ ಸನ್ನಿವೇಶಕ್ಕೂ ನಿಖರವಾಗಿ ಒಂದು JSON ಪೇಲೋಡ್ ಅನ್ನು ಕೇಳಿ.

ಇದು ಅನಗತ್ಯ ದಾಖಲೆಗಳ ಮೇಲೆ ಸಮಯ ವ್ಯರ್ಥ ಮಾಡದೆ, $99.99 vs $100.00 ನಂತಹ ನಿಖರವಾದ ಟ್ರಾನ್ಸಿಶನ್ ಪಾಯಿಂಟ್‌ಗಳನ್ನು ಪರೀಕ್ಷಿಸುವುದನ್ನು ಖಚಿತಪಡಿಸುತ್ತದೆ.

State Transition Testing ಪೇಮೆಂಟ್ ಫ್ಲೋಗಳು ಅಥವಾ ಆರ್ಡರ್ ಮ್ಯಾನೇಜ್‌ಮೆಂಟ್‌ನಂತಹ ವ್ಯವಸ್ಥೆಗಳಿಗೆ, ಡೇಟಾವು ಜೀವನ ಚಕ್ರದ (lifecycle) ವಿವಿಧ ಹಂತಗಳನ್ನು ಪ್ರತಿಬಿಂಬಿಸಬೇಕು.

ಎಲ್ಲಾ ಸಂಭವನೀಯ ಸ್ಟೇಟ್‌ಗಳ ಪಟ್ಟಿಯನ್ನು ನೀಡಿ (ಉದಾಹರಣೆಗೆ, Created, Paid, Shipped, Delivered).
ಸ್ಟೇಟ್ ಟ್ರಾನ್ಸಿಶನ್ ಮ್ಯಾಟ್ರಿಕ್ಸ್ ಅನ್ನು ಒಳಗೊಂಡ CSV ಅನ್ನು ರಚಿಸಲು LLMಗೆ ಕೇಳಿ.
ಮೂರು ರೀತಿಯ ಫ್ಲೋಗಳನ್ನು ಕೇಳಿ: Linear (ಮಾನ್ಯ), Exception (ವ್ಯತ್ಯಾಸಗಳು), ಮತ್ತು Violation (ಅಮಾನ್ಯ ಟ್ರಾನ್ಸಿಶನ್‌ಗಳು).
ಪ್ರತಿ ವಿಶಿಷ್ಟ ಸ್ಟೇಟ್ ಕಾಂಬಿನೇಷನ್‌ಗೆ ಕೇವಲ ಒಂದು ಸಾಲನ್ನು ಮಾತ್ರ ರಚಿಸಲು ನಿಯಮವನ್ನು ನಿಗದಿಪಡಿಸಿ.

ಇದು ಡೂಪ್ಲಿಕೇಟ್ ದಾಖಲೆಗಳನ್ನು ತಡೆಯುತ್ತದೆ ಮತ್ತು ನೆಗೆಟಿವ್ ಟೆಸ್ಟ್ ಕೇಸ್‌ಗಳನ್ನು (negative test cases) ರಚಿಸಲು ಪ್ರೇರೇಪಿಸುತ್ತದೆ.

Variance Control ಮತ್ತು Negative Prompting LLMಗಳು ಹೆಚ್ಚಾಗಿ ಒಂದೇ ರೀತಿಯ ಡೇಟಾವನ್ನು ಉತ್ಪಾದಿಸುತ್ತವೆ, ಉದಾಹರಣೆಗೆ ಒಂದೇ ಪ್ರದೇಶಗಳು ಅಥವಾ ವಯಸ್ಸಿನ ಗುಂಪುಗಳನ್ನು ಬಳಸುವುದು. ಇದನ್ನು ತಡೆಯಲು Negative Prompting ಬಳಸಿ.

ವಿತರಣೆಗಾಗಿ (distribution) ಸ್ಪಷ್ಟ ಅಗತ್ಯತೆಗಳನ್ನು ನಿಗದಿಪಡಿಸಿ (ಉದಾಹರಣೆಗೆ, ನಿರ್ದಿಷ್ಟ ವಯಸ್ಸಿನ ವ್ಯಾಪ್ತಿ ಅಥವಾ ಭೌಗೋಳಿಕ ಪ್ರದೇಶಗಳು).
ಒಂದು "PROHIBITIONS" (ನಿಷೇಧಗಳು) ವಿಭಾಗವನ್ನು ಸೇರಿಸಿ.
"John Doe" ನಂತಹ ಸಾಮಾನ್ಯ ಹೆಸರುಗಳನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ನಿಷೇಧಿಸಿ.
ವೇರಿಯೇಬಲ್‌ಗಳ ಒಂದೇ ರೀತಿಯ ಕಾಂಬಿನೇಷನ್‌ಗಳನ್ನು ಪುನರಾವರ್ತಿಸುವುದನ್ನು ನಿಷೇಧಿಸಿ.
ಸೀಕ್ವೆನ್ಷಿಯಲ್ ಅಥವಾ ಒಂದೇ ರೀತಿಯ ID ಸಂಖ್ಯೆಗಳನ್ನು ನಿಷೇಧಿಸಿ.

ಇದು ಪೂರ್ವಾಗ್ರಹವನ್ನು (bias) ಹೋಗಲಾಡಿಸುತ್ತದೆ ಮತ್ತು ನಿಮ್ಮ ಬ್ಯಾಕೆಂಡ್ ವೈವಿಧ್ಯಮಯ, ವಾಸ್ತವಿಕ ಡೇಟಾವನ್ನು ನಿರ್ವಹಿಸುವುದನ್ನು ಖಚಿತಪಡಿಸುತ್ತದೆ.

ನಿಮ್ಮ ಡೇಟಾ ಉದ್ದೇಶಪೂರ್ವಕವಾಗಿದ್ದರೆ ಮಾತ್ರ AI ವೇಗವು ಮೌಲ್ಯವನ್ನು ನೀಡುತ್ತದೆ. ಈ ಜನರೇಟಿವ್ ಮಾಡೆಲ್‌ಗಳನ್ನು ನಿಯಂತ್ರಿಸುವ ನಿರ್ಬಂಧಗಳನ್ನು ಕೋಡ್ ಮಾಡುವುದು QA ವೃತ್ತಿಪರರಾಗಿ ನಿಮ್ಮ ಪಾತ್ರವಾಗಿದೆ.

ಮೂಲ: https://dev.to/lopesdoamaral/engenharia-de-prompts-para-massa-de-dados-escalando-testes-com-cobertura-e-sem-duplicidade-oba

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi

𝗣𝗿𝗼𝗺𝗽𝘁 𝗘𝗻𝗴𝗶𝗻𝗲𝗲𝗿𝗶𝗻𝗴 𝗳𝗼𝗿 𝗦𝘆𝗻𝘁𝗵𝗲𝘁𝗶𝗰 𝗗𝗮𝘁𝗮

Continue reading

𝗬𝗢𝗨𝗥 𝗔𝗚𝗘𝗡𝗧 𝗙𝗔𝗜𝗟𝗘𝗗 𝗜𝗡 𝗣𝗥𝗢𝗗. 𝗚𝗢𝗢𝗗 𝗟𝗨𝗖𝗞 𝗥𝗘𝗣𝗥𝗢𝗗𝗨𝗖𝗜𝗡𝗚 𝗜𝗧.

𝗧𝗵𝗶𝘀 𝗜𝘀 𝗔 𝗚𝗨𝗜𝗗𝗘 𝗧𝗢 𝗖𝗛𝗔𝗧𝗚𝗣𝗧 𝗣𝗥𝗢𝗠𝗣𝗧 𝗘𝗡𝗚𝗜𝗡𝗘𝗘𝗥𝗜𝗡𝗚

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

ಪೈಥಾನ್ ಆರಂಭಿಕರಿಗಾಗಿ ಜೆನ್ ಎಐ ಪರಿಚಯ

ಪ್ರಾಂಪ್ಟ್ ಇಂಜಿನಿಯರ್‌ಗಳಿಗಾಗಿ ಕಾಂಟೆಕ್ಸ್ಟ್ ಇಂಜಿನಿಯರಿಂಗ್