ಪ್ರೊಡಕ್ಷನ್ನಲ್ಲಿ LLM ಔಟ್ಪುಟ್ ಗುಣಮಟ್ಟವನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡುವುದು
ಮಾರ್ಚ್ 2023 ರಲ್ಲಿ, GPT-4 97.6% ನಿಖರತೆಯೊಂದಿಗೆ ಅವಿಭಾಜ್ಯ ಸಂಖ್ಯೆಗಳನ್ನು (prime numbers) ಗುರುತಿಸಿತು. ಜೂನ್ 2023 ರ ವೇಳೆಗೆ, ಅದೇ ಮಾಡೆಲ್ನ ನಿಖರತೆ 2.4% ಕ್ಕೆ ಇಳಿಯಿತು. ಯಾರೂ ಕೋಡ್ ಅನ್ನು ಬದಲಾಯಿಸಲಿಲ್ಲ. ಯಾರೂ ಪ್ರಾಂಪ್ಟ್ ಅನ್ನು ಬದಲಾಯಿಸಲಿಲ್ಲ. ಮಾಡೆಲ್ ಕೇವಲ ಬದಲಾಯಿತು (drift).
ಇದು ಪ್ರೊಡಕ್ಷನ್ನಲ್ಲಿರುವ LLM ಗಳ ಮೂಲ ಸಮಸ್ಯೆ. ನೀವು ಮಾಡೆಲ್ ಅನ್ನು ನಿಯಂತ್ರಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ. ಇದು ಕಾಲಾನಂತರದಲ್ಲಿ ಬದಲಾಗುವ (drift ಆಗುವ) ಒಂದು ಅವಲಂಬಿತ ಅಂಶವಾಗಿದೆ. ನೀವು ಇದನ್ನು ಅಳೆಯದಿದ್ದರೆ, ಅದು ಕೆಟ್ಟುಹೋಗಿದೆ ಎಂದು ನಿಮ್ಮ ಬಳಕೆದಾರರೇ ನಿಮಗೆ ತಿಳಿಸುತ್ತಾರೆ.
ನೀವು ಕೇವಲ ಅಂದಾಜಿನ ಮೇಲೆ ಅಥವಾ "ನೋಡಲು ಚೆನ್ನಾಗಿದೆ" ಎಂಬ ಭಾವನೆಯ ಮೇಲೆ ಅವಲಂಬಿತರಾಗಲು ಸಾಧ್ಯವಿಲ್ಲ. ನಿಮಗೆ ಪುನರಾವರ್ತಿತ ಸಿಗ್ನಲ್ಗಳ (repeatable signals) ಅಗತ್ಯವಿದೆ.
ಸಾಂಪ್ರದಾಯಿಕ ಸಾಫ್ಟ್ವೇರ್ ನಿರ್ಧಾರಿತ (deterministic) ಆಗಿರುತ್ತದೆ. ಒಂದೇ ಇನ್ಪುಟ್ ಅಂದರೆ ಒಂದೇ ಔಟ್ಪುಟ್. LLMಗಳು ಈ ನಿಯಮವನ್ನು ಮುರಿಯುತ್ತವೆ. ಅವು ಅನಿರ್ಧಾರಿತ (non-deterministic) ಮತ್ತು "ಸರಿಯಾದದ್ದು" ಎಂಬುದು ಹೆಚ್ಚಾಗಿ ಅಸ್ಪಷ್ಟವಾಗಿರುತ್ತದೆ.
ಇದನ್ನು ನಿರ್ವಹಿಸಲು, ನಿಮಗೆ ಮೌಲ್ಯಮಾಪನದ ಮೂರು ಪದರಗಳು ಬೇಕಾಗುತ್ತವೆ:
- Offline evals: ರಿಗ್ರೆಷನ್ಗಳನ್ನು (regressions) ಪತ್ತೆಹಚ್ಚಲು ಪ್ರತಿ ಬದಲಾವಣೆಯ ಮೇಲೂ ಸ್ಥಿರವಾದ ಟೆಸ್ಟ್ ಸೆಟ್ ಅನ್ನು ರನ್ ಮಾಡಿ.
- Reference-free checks: ನಿಮ್ಮ ಬಳಿ ಯಾವುದೇ "ಸರಿಯಾದ" ಉತ್ತರ ಇಲ್ಲದಿದ್ದಾಗ ಹ್ಯಾಲ್ಯುಸಿನೇಶನ್ ಡಿಟೆಕ್ಷನ್ (hallucination detection) ನಂತಹ ಸಿಗ್ನಲ್ಗಳನ್ನು ಬಳಸಿ.
- Production monitoring: ಡ್ರಿಫ್ಟ್ (drift) ಮತ್ತು ಗುಣಮಟ್ಟದ ಕುಸಿತವನ್ನು ಗಮನಿಸಲು ನೈಜ ಟ್ರಾಫಿಕ್ ಅನ್ನು ಗಮನಿಸಿ.
ಇದರ ಅಡಿಪಾಯವೇ ಒಂದು Golden Dataset. ಯಾದೃಚ್ಛಿಕ ಮಾದರಿಗಳನ್ನು (random samples) ಬಳಸಬೇಡಿ. ಕಠಿಣ ಪ್ರಕರಣಗಳ ವಿಂಗಡಿತ ಸೆಟ್ ಅನ್ನು ಬಳಸಿ. ಖಾಲಿ ಇನ್ಪುಟ್ಗಳು, ವಿಚಿತ್ರ ಎಡ್ಜ್ ಕೇಸ್ಗಳು (edge cases) ಮತ್ತು ಅಡ್ವರ್ಸೇರಿಯಲ್ ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು (adversarial prompts) ಬಳಸಿ. 8,000 ಯಾದೃಚ್ಛಿಕ ಉದಾಹರಣೆಗಳಿಗಿಂತ 80 ಚುರುಕಾದ ಉದಾಹರಣೆಗಳು ಉತ್ತಮ.
LLM ಅನ್ನು ತೀರ್ಪುಗಾರನನ್ನಾಗಿ (judge) ಬಳಸುವಾಗ, ಈ ಪಕ್ಷಪಾತಗಳನ್ನು (biases) ಗಮನಿಸಿ:
- Position bias: ತೀರ್ಪುಗಾರರು ಹೆಚ್ಚಾಗಿ ತಮಗೆ ಮೊದಲು ಕಾಣುವ ಉತ್ತರಕ್ಕೆ ಒಲವು ತೋರುತ್ತಾರೆ. ಎರಡೂ ಕ್ರಮಗಳಲ್ಲಿ ಹೋಲಿಕೆಗಳನ್ನು ಮಾಡುವ ಮೂಲಕ ಇದನ್ನು ಸರಿಪಡಿಸಿ.
- Verbosity bias: ಉತ್ತರಗಳು ಸ್ಪಷ್ಟವಾಗಿಲ್ಲದಿದ್ದರೂ ತೀರ್ಪುಗಾರರು ಉದ್ದವಾದ ಉತ್ತರಗಳಿಗೆ ಹೆಚ್ಚಿನ ಮೌಲ್ಯ ನೀಡುತ್ತಾರೆ.
- Self-enhancement bias: ಮಾಡೆಲ್ಗಳು ತಮ್ಮದೇ ಆದ ಫ್ಯಾಮಿಲಿಯಿಂದ ಬಂದ ಪಠ್ಯವನ್ನು ಇಷ್ಟಪಡುತ್ತವೆ. ಔಟ್ಪುಟ್ಗಳನ್ನು ತೀರ್ಪು ಮಾಡಲು ವಿಭಿನ್ನ ಮಾಡೆಲ್ ಫ್ಯಾಮಿಲಿಗಳನ್ನು ಬಳಸಿ.
ನೈಜ-ಸಮಯದ ಮೇಲ್ವಿಚಾರಣೆಗೆ (real-time monitoring), ಈ ಕೆಳಗಿನವುಗಳನ್ನು ಪರೀಕ್ಷಿಸಲು RAG Triad ಬಳಸಿ:
- Faithfulness: ಉತ್ತರವು ಸಂದರ್ಭಕ್ಕೆ (context) ಬದ್ಧವಾಗಿದೆಯೇ?
- Answer relevance: ಅದು ಪ್ರಶ್ನೆಗೆ ಉತ್ತರಿಸುತ್ತಿದೆಯೇ?
- Context relevance: ಸಿಸ್ಟಮ್ ಸರಿಯಾದ ದಾಖಲೆಗಳನ್ನು ತರಿಸಿದೆಯೇ?
ಮಾಡೆಲ್ ಗುಣಮಟ್ಟವನ್ನು ಸ್ಥಿರವಾದ ಗುಣ ಎಂದು ಪರಿಗಣಿಸುವುದನ್ನು ನಿಲ್ಲಿಸಿ. ಅದನ್ನು ಲೇಟೆನ್ಸಿ (latency) ಅಥವಾ ಎರರ್ ರೇಟ್ (error rates) ನಂತೆ ಪರಿಗಣಿಸಿ. ಅದು ಬದಲಾಗುತ್ತಲೇ ಇರುತ್ತದೆ. ಅದು ಸರಿಯಾಗಿಲ್ಲದಿದ್ದಾಗ ಅದನ್ನು ಗಮನಿಸುವುದು ನಿಮ್ಮ ಕೆಲಸ.
ಸಣ್ಣದಾಗಿ ಪ್ರಾರಂಭಿಸಿ. 20 ಗೋಲ್ಡನ್ ಉದಾಹರಣೆಗಳನ್ನು ಬರೆಯಿರಿ. ನಿಮ್ಮ ಡಿಪ್ಲಾಯ್ಗಳನ್ನು ನಿಯಂತ್ರಿಸಲು (gate) ಅವುಗಳನ್ನು ಬಳಸಿ. ನಂತರ ಅಗ್ಗದ ಪ್ರೊಡಕ್ಷನ್ ಹ್ಯೂರಿಸ್ಟಿಕ್ಸ್ (production heuristics) ಅನ್ನು ಸೇರಿಸಿ.
ಚೆನ್ನಾಗಿ ನಿದ್ರೆ ಮಾಡುವ ತಂಡಗಳು ಅತ್ಯಂತ ಬುದ್ಧಿವಂತ ಮಾಡೆಲ್ಗಳನ್ನು ಹೊಂದಿರುವ ತಂಡಗಳಲ್ಲ. ಬದಲಾಗಿ, ತಮ್ಮ ಮಾಡೆಲ್ ಬುದ್ಧಿವಂತಿಕೆ ಕಡಿಮೆಯಾದಾಗ ಅದನ್ನು ಒಂದು ಗಂಟೆಯೊಳಗೆ ಪತ್ತೆಹಚ್ಚಬಲ್ಲ ತಂಡಗಳು ಅವುಗಳಾಗಿವೆ.
Source: https://dev.to/nazar_boyko/evaluating-llm-output-quality-in-production-39an
Optional learning community: https://t.me/GyaanSetuAi
