How I A/B Test LLM Prompts Without Fooling Myself

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 ವಾರಗಳ ಹಿಂದೆ2min read

How I A/B Test LLM Prompts Without Fooling Myself

ನನ್ನನ್ನು ನಾನೇ ವಂಚಿಸಿಕೊಳ್ಳದೆ ನಾನು LLM ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಹೇಗೆ A/B ಟೆಸ್ಟ್ ಮಾಡುತ್ತೇನೆ

ನಾನು ಒಮ್ಮೆ ಒಂದು ಸಪೋರ್ಟ್ ಅಸಿಸ್ಟೆಂಟ್ (support assistant) ಅನ್ನು ನಿರ್ಮಿಸಿದೆ ಮತ್ತು ಅದು ಅತ್ಯುತ್ತಮವಾಗಿದೆ ಎಂದು ಭಾವಿಸಿದೆ. ನಾನು ಮೂವತ್ತು ಟೆಸ್ಟ್ ಕೇಸ್‌ಗಳನ್ನು ನಡೆಸಿದೆ, ಹೊಸ ಪ್ರಾಂಪ್ಟ್ ಹೆಚ್ಚಿನ ಸ್ಕೋರ್ ಪಡೆದಿತು ಮತ್ತು ನಾನು ಅದನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ.

ಆರು ಗಂಟೆಗಳ ನಂತರ, ಸಪೋರ್ಟ್ ಕ್ಯೂ (support queue) ದೂರುಗಳಿಂದ ತುಂಬಿಹೋಯಿತು. ಅಂದು ರಾತ್ರಿಯೇ ನಾನು ಆ ಬದಲಾವಣೆಯನ್ನು ಹಿಂಪಡೆಯಬೇಕಾಯಿತು.

ಆ ಹೆಚ್ಚಿನ ಸ್ಕೋರ್ ನಕಲಿ ಆಗಿತ್ತು. ನಿಜವಾದ ಸುಧಾರಣೆ ಮತ್ತು ಅದೃಷ್ಟದ ನಡುವಿನ ವ್ಯತ್ಯಾಸವನ್ನು ಗುರುತಿಸಲು ಮೂವತ್ತು ಉದಾಹರಣೆಗಳು ಸಾಕಾಗುವುದಿಲ್ಲ. ಆ ಸಂಖ್ಯೆಯು ಕೇವಲ ಗೊಂದಲಮಯ ಮಾಹಿತಿಯಾಗಿತ್ತು (noise).

ಅಂತಹ ತಪ್ಪು ಮಾಡದೆ ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಪರೀಕ್ಷಿಸುವುದು ಹೇಗೆ ಎಂಬುದು ಇಲ್ಲಿದೆ.

ಸಣ್ಣ ಪರೀಕ್ಷೆಗಳು ಕೇವಲ ದೊಡ್ಡ ಬದಲಾವಣೆಗಳನ್ನು ಮಾತ್ರ ಪತ್ತೆಹಚ್ಚುತ್ತವೆ. ನೀವು ಸಣ್ಣ ಸುಧಾರಣೆಯನ್ನು ಕಂಡುಹಿಡಿಯಲು ಬಯಸಿದರೆ, ನಿಮಗೆ ಇನ್ನೂ ಹೆಚ್ಚಿನ ಉದಾಹರಣೆಗಳು ಬೇಕಾಗುತ್ತವೆ. ಅತ್ಯಲ್ಪ ಬದಲಾವಣೆಯನ್ನು ಕಂಡುಹಿಡಿಯಲು, ನಿಮಗೆ ಸಾವಿರಕ್ಕೂ ಹೆಚ್ಚು ಉದಾಹರಣೆಗಳು ಬೇಕಾಗಬಹುದು.
ಎರಡೂ ಆವೃತ್ತಿಗಳಿಗೆ (versions) ಒಂದೇ ರೀತಿಯ ಪ್ರಶ್ನೆಗಳನ್ನು ಬಳಸಿ. ಆವೃತ್ತಿ A ಗೆ ಒಂದು ಗುಂಪಿನ ಪ್ರಶ್ನೆಗಳನ್ನು ಮತ್ತು ಆವೃತ್ತಿ B ಗೆ ಇನ್ನೊಂದು ಗುಂಪಿನ ಪ್ರಶ್ನೆಗಳನ್ನು ನೀಡಬೇಡಿ. ಕೆಲವು ಪ್ರಶ್ನೆಗಳು ಇತರರಿಗಿಂತ ಕಠಿಣವಾಗಿರುತ್ತವೆ. ಆವೃತ್ತಿ B ಗೆ ಸುಲಭವಾದ ಪ್ರಶ್ನೆಗಳು ಸಿಕ್ಕರೆ, ಅದು ಕಳಪೆ ಆಗಿದ್ದರೂ ಸಹ ಉತ್ತಮವಾಗಿ ಕಾಣಿಸಬಹುದು. ಎರಡೂ ಆವೃತ್ತಿಗಳನ್ನು ನಿಖರವಾದ ಒಂದೇ ಪ್ರಶ್ನೆಗಳ ಗುಂಪಿನ ಮೂಲಕ ಪರೀಕ್ಷಿಸಿ.
ಕೇವಲ ಸರಾಸರಿಯನ್ನು (average) ನೋಡಬೇಡಿ, ಬದಲಾಗಿ ವ್ಯಾಪ್ತಿಯನ್ನು (range) ಗಮನಿಸಿ. ಸರಾಸರಿಯು ಗೆಲುವು ಎಷ್ಟು ದೊಡ್ಡದಾಗಿದೆ ಎಂಬುದರ ಬಗ್ಗೆ ಏನನ್ನೂ ಹೇಳುವುದಿಲ್ಲ. ಅತಿ ಕಡಿಮೆ ಮತ್ತು ಅತಿ ಹೆಚ್ಚು ಸಂಭವನೀಯ ಸುಧಾರಣೆಗಳ ವ್ಯಾಪ್ತಿಯನ್ನು ವರದಿ ಮಾಡಿ. ಆ ವ್ಯಾಪ್ತಿಯು ಶೂನ್ಯವನ್ನು (zero) ಒಳಗೊಂಡಿದ್ದರೆ, ಅದನ್ನು ಬಿಡುಗಡೆ ಮಾಡಬೇಡಿ.
ಸರಿಯಾದ ಸ್ಕೋರಿಂಗ್ ವಿಧಾನವನ್ನು ಆರಿಸಿ. • ಸಂಪೂರ್ಣ ಗುಣಮಟ್ಟಕ್ಕಾಗಿ (absolute quality) ಚೆಕ್‌ಲಿಸ್ಟ್ ಬಳಸಿ. • ಧಾಟಿ (tone) ಅಥವಾ ಸಹಕಾರದಂತಹ ಅಸ್ಪಷ್ಟ ಗುಣಮಟ್ಟಕ್ಕಾಗಿ (fuzzy quality) ಸೈಡ್-ಬೈ-ಸೈಡ್ ಹೋಲಿಕೆಯನ್ನು ಬಳಸಿ.
ಬಹು ಆವೃತ್ತಿಗಳಿಗಾಗಿ 'ಬ್ಯಾಂಡಿಟ್' (bandit) ಬಳಸಿ. ನಿಮ್ಮ ಬಳಿ ಮೂರು ಅಥವಾ ಅದಕ್ಕಿಂತ ಹೆಚ್ಚು ಆವೃತ್ತಿಗಳಿದ್ದು, ಬಳಕೆದಾರರ ಅಸಮಾಧಾನವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಬಯಸಿದರೆ, ಬ್ಯಾಂಡಿಟ್ ಬಳಸಿ. ಇದು ಕಲಿಯುತ್ತಾ ಹೋದಂತೆ ಗೆಲ್ಲುವ ಆವೃತ್ತಿಗೆ ಹೆಚ್ಚಿನ ಟ್ರಾಫಿಕ್ ಅನ್ನು ಕಳುಹಿಸುತ್ತದೆ. ಇದು ಬಳಕೆದಾರರು ವಾರಗಟ್ಟಲೆ ಕೆಟ್ಟ ಉತ್ತರಗಳನ್ನು ನೋಡದಂತೆ ತಡೆಯುತ್ತದೆ.

ಈ ತಪ್ಪುಗಳನ್ನು ತಪ್ಪಿಸಿ:

ವ್ಯಾಪ್ತಿಯಿಲ್ಲದೆ ಸರಾಸರಿಗಳನ್ನು ಹೋಲಿಸುವುದು.
ವಿವಿಧ ಆವೃತ್ತಿಗಳಿಗೆ ವಿಭಿನ್ನ ಪ್ರಶ್ನೆಗಳ ಗುಂಪುಗಳನ್ನು ಬಳಸುವುದು.
ಪರೀಕ್ಷೆಯ ಮಧ್ಯದಲ್ಲಿ ನಿಮ್ಮ ಸ್ಕೋರರ್ ಅನ್ನು ಬದಲಾಯಿಸುವುದು.
ಅಂಕಿಅಂಶಗಳು ಉತ್ತಮವಾಗಿ ಕಂಡ ತಕ್ಷಣ ಪರೀಕ್ಷೆಯನ್ನು ನಿಲ್ಲಿಸುವುದು.
ಏಕಕಾಲದಲ್ಲಿ ಅತಿಯಾದ ಮೆಟ್ರಿಕ್ಸ್‌ಗಳನ್ನು (metrics) ಗಮನಿಸುವುದು. ಇದು ನಕಲಿ ಗೆಲುವನ್ನು ನೋಡುವ ನಿಮ್ಮ ಸಾಧ್ಯತೆಯನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ.
ಮಾನವ ನಿರ್ಧಾರದೊಂದಿಗೆ (human judgment) ಪರಿಶೀಲಿಸುವ ಮೊದಲು ಸ್ಕೋರರ್ ಅನ್ನು ನಂಬುವುದು.

ಪರೀಕ್ಷೆಯನ್ನು ನಡೆಸುವುದು ಕಷ್ಟದ ಕೆಲಸವಲ್ಲ. ಫಲಿತಾಂಶವು ಯಾವಾಗ ನಿಜವಾಗಿದೆ ಎಂದು ತಿಳಿಯುವುದು ಕಷ್ಟದ ಕೆಲಸ.

ಮೂಲ: https://dev.to/kartik-nvjk/how-i-ab-test-llm-prompts-without-fooling-myself-528f

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi

How I A/B Test LLM Prompts Without Fooling Myself

ನನ್ನನ್ನು ನಾನೇ ವಂಚಿಸಿಕೊಳ್ಳದೆ ನಾನು LLM ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಹೇಗೆ A/B ಟೆಸ್ಟ್ ಮಾಡುತ್ತೇನೆ

Continue reading

LLM ಪ್ರಾಂಪ್ಟಿಂಗ್‌ನಲ್ಲಿ ಪರಿಣತಿ ಪಡೆಯುವುದು: ಒಬ್ಬ ಡೆವಲಪರ್‌ನ ಮಾರ್ಗದರ್ಶಿ

ಇವಲ್ ಆಧಾರಿತ ಏಜೆಂಟ್ ಅಭಿವೃದ್ಧಿ: ಕೇವಲ ಅನುಭವದ ಆಧಾರದ ಮೇಲೆ ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಸರಿಪಡಿಸುವುದನ್ನು ನಾನು ಹೇಗೆ ನಿಲ್ಲಿಸಿದೆ

ಕಲ್ಪನೆಗಳ ಬಗ್ಗೆ ಒಂದು ವೇಗದ LLM ನನಗೆ ಕಲಿಸಿದ್ದು

Your Evals Are Flaky Too: Stop Trusting A Pass Rate You Can't Reproduce

GLM 5.2 ಕೋಡ್ ವಿಮರ್ಶೆಗಳು ನಿಮ್ಮ ಪ್ರಾಂಪ್ಟ್‌ಗಳ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿವೆ