ನನ್ನನ್ನು ನಾನೇ ವಂಚಿಸಿಕೊಳ್ಳದೆ ನಾನು LLM ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಹೇಗೆ A/B ಟೆಸ್ಟ್ ಮಾಡುತ್ತೇನೆ

ನಾನು ಒಮ್ಮೆ ಒಂದು ಸಪೋರ್ಟ್ ಅಸಿಸ್ಟೆಂಟ್ (support assistant) ಅನ್ನು ನಿರ್ಮಿಸಿದೆ ಮತ್ತು ಅದು ಅತ್ಯುತ್ತಮವಾಗಿದೆ ಎಂದು ಭಾವಿಸಿದೆ. ನಾನು ಮೂವತ್ತು ಟೆಸ್ಟ್ ಕೇಸ್‌ಗಳನ್ನು ನಡೆಸಿದೆ, ಹೊಸ ಪ್ರಾಂಪ್ಟ್ ಹೆಚ್ಚಿನ ಸ್ಕೋರ್ ಪಡೆದಿತು ಮತ್ತು ನಾನು ಅದನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ.

ಆರು ಗಂಟೆಗಳ ನಂತರ, ಸಪೋರ್ಟ್ ಕ್ಯೂ (support queue) ದೂರುಗಳಿಂದ ತುಂಬಿಹೋಯಿತು. ಅಂದು ರಾತ್ರಿಯೇ ನಾನು ಆ ಬದಲಾವಣೆಯನ್ನು ಹಿಂಪಡೆಯಬೇಕಾಯಿತು.

ಆ ಹೆಚ್ಚಿನ ಸ್ಕೋರ್ ನಕಲಿ ಆಗಿತ್ತು. ನಿಜವಾದ ಸುಧಾರಣೆ ಮತ್ತು ಅದೃಷ್ಟದ ನಡುವಿನ ವ್ಯತ್ಯಾಸವನ್ನು ಗುರುತಿಸಲು ಮೂವತ್ತು ಉದಾಹರಣೆಗಳು ಸಾಕಾಗುವುದಿಲ್ಲ. ಆ ಸಂಖ್ಯೆಯು ಕೇವಲ ಗೊಂದಲಮಯ ಮಾಹಿತಿಯಾಗಿತ್ತು (noise).

ಅಂತಹ ತಪ್ಪು ಮಾಡದೆ ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಪರೀಕ್ಷಿಸುವುದು ಹೇಗೆ ಎಂಬುದು ಇಲ್ಲಿದೆ.

  • ಸಣ್ಣ ಪರೀಕ್ಷೆಗಳು ಕೇವಲ ದೊಡ್ಡ ಬದಲಾವಣೆಗಳನ್ನು ಮಾತ್ರ ಪತ್ತೆಹಚ್ಚುತ್ತವೆ. ನೀವು ಸಣ್ಣ ಸುಧಾರಣೆಯನ್ನು ಕಂಡುಹಿಡಿಯಲು ಬಯಸಿದರೆ, ನಿಮಗೆ ಇನ್ನೂ ಹೆಚ್ಚಿನ ಉದಾಹರಣೆಗಳು ಬೇಕಾಗುತ್ತವೆ. ಅತ್ಯಲ್ಪ ಬದಲಾವಣೆಯನ್ನು ಕಂಡುಹಿಡಿಯಲು, ನಿಮಗೆ ಸಾವಿರಕ್ಕೂ ಹೆಚ್ಚು ಉದಾಹರಣೆಗಳು ಬೇಕಾಗಬಹುದು.

  • ಎರಡೂ ಆವೃತ್ತಿಗಳಿಗೆ (versions) ಒಂದೇ ರೀತಿಯ ಪ್ರಶ್ನೆಗಳನ್ನು ಬಳಸಿ. ಆವೃತ್ತಿ A ಗೆ ಒಂದು ಗುಂಪಿನ ಪ್ರಶ್ನೆಗಳನ್ನು ಮತ್ತು ಆವೃತ್ತಿ B ಗೆ ಇನ್ನೊಂದು ಗುಂಪಿನ ಪ್ರಶ್ನೆಗಳನ್ನು ನೀಡಬೇಡಿ. ಕೆಲವು ಪ್ರಶ್ನೆಗಳು ಇತರರಿಗಿಂತ ಕಠಿಣವಾಗಿರುತ್ತವೆ. ಆವೃತ್ತಿ B ಗೆ ಸುಲಭವಾದ ಪ್ರಶ್ನೆಗಳು ಸಿಕ್ಕರೆ, ಅದು ಕಳಪೆ ಆಗಿದ್ದರೂ ಸಹ ಉತ್ತಮವಾಗಿ ಕಾಣಿಸಬಹುದು. ಎರಡೂ ಆವೃತ್ತಿಗಳನ್ನು ನಿಖರವಾದ ಒಂದೇ ಪ್ರಶ್ನೆಗಳ ಗುಂಪಿನ ಮೂಲಕ ಪರೀಕ್ಷಿಸಿ.

  • ಕೇವಲ ಸರಾಸರಿಯನ್ನು (average) ನೋಡಬೇಡಿ, ಬದಲಾಗಿ ವ್ಯಾಪ್ತಿಯನ್ನು (range) ಗಮನಿಸಿ. ಸರಾಸರಿಯು ಗೆಲುವು ಎಷ್ಟು ದೊಡ್ಡದಾಗಿದೆ ಎಂಬುದರ ಬಗ್ಗೆ ಏನನ್ನೂ ಹೇಳುವುದಿಲ್ಲ. ಅತಿ ಕಡಿಮೆ ಮತ್ತು ಅತಿ ಹೆಚ್ಚು ಸಂಭವನೀಯ ಸುಧಾರಣೆಗಳ ವ್ಯಾಪ್ತಿಯನ್ನು ವರದಿ ಮಾಡಿ. ಆ ವ್ಯಾಪ್ತಿಯು ಶೂನ್ಯವನ್ನು (zero) ಒಳಗೊಂಡಿದ್ದರೆ, ಅದನ್ನು ಬಿಡುಗಡೆ ಮಾಡಬೇಡಿ.

  • ಸರಿಯಾದ ಸ್ಕೋರಿಂಗ್ ವಿಧಾನವನ್ನು ಆರಿಸಿ. • ಸಂಪೂರ್ಣ ಗುಣಮಟ್ಟಕ್ಕಾಗಿ (absolute quality) ಚೆಕ್‌ಲಿಸ್ಟ್ ಬಳಸಿ. • ಧಾಟಿ (tone) ಅಥವಾ ಸಹಕಾರದಂತಹ ಅಸ್ಪಷ್ಟ ಗುಣಮಟ್ಟಕ್ಕಾಗಿ (fuzzy quality) ಸೈಡ್-ಬೈ-ಸೈಡ್ ಹೋಲಿಕೆಯನ್ನು ಬಳಸಿ.

  • ಬಹು ಆವೃತ್ತಿಗಳಿಗಾಗಿ 'ಬ್ಯಾಂಡಿಟ್' (bandit) ಬಳಸಿ. ನಿಮ್ಮ ಬಳಿ ಮೂರು ಅಥವಾ ಅದಕ್ಕಿಂತ ಹೆಚ್ಚು ಆವೃತ್ತಿಗಳಿದ್ದು, ಬಳಕೆದಾರರ ಅಸಮಾಧಾನವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಬಯಸಿದರೆ, ಬ್ಯಾಂಡಿಟ್ ಬಳಸಿ. ಇದು ಕಲಿಯುತ್ತಾ ಹೋದಂತೆ ಗೆಲ್ಲುವ ಆವೃತ್ತಿಗೆ ಹೆಚ್ಚಿನ ಟ್ರಾಫಿಕ್ ಅನ್ನು ಕಳುಹಿಸುತ್ತದೆ. ಇದು ಬಳಕೆದಾರರು ವಾರಗಟ್ಟಲೆ ಕೆಟ್ಟ ಉತ್ತರಗಳನ್ನು ನೋಡದಂತೆ ತಡೆಯುತ್ತದೆ.

ಈ ತಪ್ಪುಗಳನ್ನು ತಪ್ಪಿಸಿ:

  • ವ್ಯಾಪ್ತಿಯಿಲ್ಲದೆ ಸರಾಸರಿಗಳನ್ನು ಹೋಲಿಸುವುದು.
  • ವಿವಿಧ ಆವೃತ್ತಿಗಳಿಗೆ ವಿಭಿನ್ನ ಪ್ರಶ್ನೆಗಳ ಗುಂಪುಗಳನ್ನು ಬಳಸುವುದು.
  • ಪರೀಕ್ಷೆಯ ಮಧ್ಯದಲ್ಲಿ ನಿಮ್ಮ ಸ್ಕೋರರ್ ಅನ್ನು ಬದಲಾಯಿಸುವುದು.
  • ಅಂಕಿಅಂಶಗಳು ಉತ್ತಮವಾಗಿ ಕಂಡ ತಕ್ಷಣ ಪರೀಕ್ಷೆಯನ್ನು ನಿಲ್ಲಿಸುವುದು.
  • ಏಕಕಾಲದಲ್ಲಿ ಅತಿಯಾದ ಮೆಟ್ರಿಕ್ಸ್‌ಗಳನ್ನು (metrics) ಗಮನಿಸುವುದು. ಇದು ನಕಲಿ ಗೆಲುವನ್ನು ನೋಡುವ ನಿಮ್ಮ ಸಾಧ್ಯತೆಯನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ.
  • ಮಾನವ ನಿರ್ಧಾರದೊಂದಿಗೆ (human judgment) ಪರಿಶೀಲಿಸುವ ಮೊದಲು ಸ್ಕೋರರ್ ಅನ್ನು ನಂಬುವುದು.

ಪರೀಕ್ಷೆಯನ್ನು ನಡೆಸುವುದು ಕಷ್ಟದ ಕೆಲಸವಲ್ಲ. ಫಲಿತಾಂಶವು ಯಾವಾಗ ನಿಜವಾಗಿದೆ ಎಂದು ತಿಳಿಯುವುದು ಕಷ್ಟದ ಕೆಲಸ.

ಮೂಲ: https://dev.to/kartik-nvjk/how-i-ab-test-llm-prompts-without-fooling-myself-528f

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi