𝗜 𝗔𝗱𝗱𝗲𝗱 𝗮 𝗩𝗲𝗿𝗶𝗳𝘆 𝗟𝗮𝘆𝗲𝗿 𝘁𝗼 𝗠𝘆 𝗟𝗼𝗰𝗮𝗹 𝗥𝗔𝗚 𝘁𝗼 𝗖𝗮𝘁𝗰𝗵 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀
ನಾನು Ollama ಬಳಸಿ ಒಂದು ಲೋಕಲ್ ರಿಸರ್ಚ್ ಅಸಿಸ್ಟೆಂಟ್ ಅನ್ನು ನಿರ್ಮಿಸಿದ್ದೇನೆ. ಇದು ನನ್ನ ಸ್ವಂತ ಪೇಪರ್ಗಳ ಮೇಲೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ನನ್ನ ಯಂತ್ರದಿಂದ (machine) ಯಾವುದೇ ಮಾಹಿತಿ ಹೊರಗೆ ಹೋಗುವುದಿಲ್ಲ.
ನಾನು ಹ್ಯಾಲುಸಿನೇಷನ್ಗಳನ್ನು (hallucinations) ತಡೆಯಲು ಬಯಸಿದ್ದೆ. ಆತ್ಮವಿಶ್ವಾಸದಿಂದ ಕಾಣುತ್ತಾ ತಪ್ಪು ಸಂಖ್ಯೆಯನ್ನು ಉಲ್ಲೇಖಿಸುವ ಸಾಧನವು ಅಪಾಯಕಾರಿಯಾಗಿದೆ.
ನಾನು ಒಂದು ವೆರಿಫಿಕೇಶನ್ ಲೇಯರ್ ಅನ್ನು ಸೇರಿಸಿದೆ. ಇದು ಮೂರು ಹಂತಗಳಲ್ಲಿ ಕೆಲಸ ಮಾಡುತ್ತದೆ:
- ಉತ್ತರವನ್ನು ಸಣ್ಣ ಸಣ್ಣ ಕ್ಲೈಮ್ಗಳಾಗಿ (claims) ವಿಂಗಡಿಸುವುದು.
- ಪ್ರತಿಯೊಂದು ಕ್ಲೈಮ್ ಅನ್ನು ಮೂಲದೊಂದಿಗೆ (source) ಹೋಲಿಸಿ ಪರಿಶೀಲಿಸಲು LLM ಅನ್ನು ಬಳಸುವುದು.
- ಮೂಲವು ಬೆಂಬಲಿಸದ ಕ್ಲೈಮ್ಗಳನ್ನು ಫ್ಲಾಗ್ (flag) ಮಾಡುವುದು.
ಇದರ ಫಲಿತಾಂಶಗಳು ನನಗೆ ಕಠಿಣ ಪಾಠವನ್ನು ಕಲಿಸಿದವು. ನನ್ನ ಸ್ವಂತ ಡೇಟಾ ಬಗ್ಗೆ ನಾನು ಎರಡು ಬಾರಿ ತಪ್ಪು ಮಾಡಿದ್ದೆ.
ಮೊದಲನೆಯದಾಗಿ, ಮಾಡೆಲ್ ಒಂದು ನೈಜ ಸಂಖ್ಯೆಯನ್ನು ನೀಡಿತು ಆದರೆ ತಪ್ಪು ಸಂದರ್ಭವನ್ನು (context) ಬಳಸಿತು. ಅಸ್ತಿತ್ವದಲ್ಲಿಲ್ಲದ ಟೆಸ್ಟ್ ಸೆಟ್ಗಾಗಿ ಅದು 0.804 ರ AUROC ಅನ್ನು ಉಲ್ಲೇಖಿಸಿತು. ಸಂಖ್ಯೆ ನೈಜವಾಗಿತ್ತು. ಆದರೆ ಸಂದರ್ಭವು ಸುಳ್ಳಾಗಿತ್ತು. ಅಂಕಿಅಂಶಗಳು ಹೊಂದಿಕೆಯಾಗಿದ್ದರಿಂದ ನನ್ನ ವೆರಿಫೈಯರ್ ಅದನ್ನು ಪಾಸು ಮಾಡಿತು.
ಎರಡನೆಯದಾಗಿ, ಮಾಡೆಲ್ ಪೇಪರ್ನ ಬೇರೆ ಭಾಗದಿಂದ ಒಂದು ಸಂಖ್ಯೆಯನ್ನು ತೆಗೆದುಕೊಂಡಿತು. ಅದು ಒಂದು ಮೌಲ್ಯವನ್ನು ತಪ್ಪು ಪ್ರಯೋಗಕ್ಕೆ ಆರೋಪಿಸಿತು (attributed).
ಇದನ್ನು ಪರೀಕ್ಷಿಸುವುದರಿಂದ ನಾನು ಕಲಿತ ವಿಷಯಗಳು ಇಲ್ಲಿವೆ:
ವೆರಿಫಿಕೇಶನ್ ಕೇವಲ ಇಲ್ಲದ ಮೌಲ್ಯಗಳನ್ನು ಮಾತ್ರ ಪತ್ತೆಹಚ್ಚುತ್ತದೆ. ಒಂದು ಸಂಖ್ಯೆಯು ಪಠ್ಯದಲ್ಲಿ ಇಲ್ಲದಿದ್ದರೆ, ವೆರಿಫೈಯರ್ ಅದನ್ನು ಪತ್ತೆಹಚ್ಚುತ್ತದೆ. ಆದರೆ ಸಂಖ್ಯೆಯು ನೈಜವಾಗಿದ್ದು ತಪ್ಪು ಸತ್ಯಕ್ಕೆ ಸಂಬಂಧಿಸಿದ್ದರೆ, ಅದು ಹೆಚ್ಚಾಗಿ ವಿಫಲವಾಗುತ್ತದೆ.
ಒಂದೇ ಮಾಡೆಲ್ನ ತೀರ್ಪುಗಾರರಿಗೆ ಅರಿವಿಲ್ಲದ ಲೋಪಗಳು (blind spots) ಇರುತ್ತವೆ. ಒಂದೇ ಮಾಡೆಲ್ ಉತ್ತರವನ್ನು ಬರೆದರೆ ಮತ್ತು ಅದೇ ಮಾಡೆಲ್ ಉತ್ತರವನ್ನು ತೀರ್ಪು ನೀಡಿದರೆ, ಅದು ತನ್ನದೇ ತಪ್ಪುಗಳಿಗೆ ಅನುಮೋದನೆ ನೀಡುತ್ತದೆ. ತಪ್ಪುಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಲು ತೀರ್ಪು ನೀಡಲು ಬೇರೆ ಮಾಡೆಲ್ ಬಳಸುವುದು ಸಹಕಾರಿ.
ಫ್ಲಾಗ್ ಎಂದರೆ ಯಾವಾಗಲೂ ಸುಳ್ಳು ಎಂದರ್ಥವಲ್ಲ. ಒಂದು ಫ್ಲಾಗ್ ಮೂರು ವಿಷಯಗಳನ್ನು ಸೂಚಿಸಬಹುದು:
- ನೈಜ ಹ್ಯಾಲುಸಿನೇಷನ್.
- ಮೂಲವನ್ನು ಹುಡುಕಲು ಸಾಧ್ಯವಾಗದ ರಿಟ್ರಿೀವಲ್ ದೋಷ (retrieval error).
- ರಿಟ್ರೀವ್ ಮಾಡಿದ ಪಠ್ಯದಲ್ಲಿ ಇಲ್ಲದ ಒಂದು ಸತ್ಯವಾದ ಮಾಹಿತಿ. ನೀವು ಫ್ಲಾಗ್ ಅನ್ನು ನೋಡಿದಾಗ, ಕ್ಲೈಮ್ ಅನ್ನು ಕೇವಲ ಅಳಿಸುವ ಬದಲು ಡೇಟಾವನ್ನು ಮರು-ರಿಟ್ರೀವ್ (re-retrieving) ಮಾಡಲು ಪ್ರಯತ್ನಿಸಿ.
- ನಿಮಗೆ ಗ್ರೌಂಡ್ ಟ್ರೂತ್ (ground truth) ಬೇಕು. ನೈಜ ಉತ್ತರಗಳು ತಿಳಿಯದೆ ನೀವು ಹ್ಯಾಲುಸಿನೇಷನ್ಗಳನ್ನು ಅಳೆಯಲು ಸಾಧ್ಯವಿಲ್ಲ. ನಾನು ನನ್ನ ಸ್ವಂತ ಕೆಲಸದ ಬಗ್ಗೆ ಎರಡು ತಪ್ಪು ಸಂಶೋಧನೆಗಳನ್ನು ಪ್ರಕಟಿಸುವ ಹಂತಕ್ಕೆ ತಲುಪಿದ್ದೆ. ನನ್ನ ಫೈಲ್ಗಳಲ್ಲಿ ಸರಳವಾದ ಹುಡುಕಾಟವು ಎರಡೂ ತಪ್ಪುಗಳನ್ನು ಸರಿಪಡಿಸಿತು.
ನಿಮ್ಮ RAG ಗಾಗಿ ಪ್ರಾಯೋಗಿಕ ಸಲಹೆಗಳು:
- ಉತ್ತರ ನೀಡುವ ಮಾಡೆಲ್ ಮತ್ತು ತೀರ್ಪು ನೀಡುವ ಮಾಡೆಲ್ ಬೇರೆಯಾಗಿರಲಿ.
- ಉತ್ತಮ ರಿಟ್ರಿೀವಲ್ ಮೇಲೆ ಗಮನಹರಿಸಿ. ಹೆಚ್ಚಿನ "ಹ್ಯಾಲುಸಿನೇಷನ್ಗಳು" ಕೇವಲ ರಿಟ್ರಿೀವಲ್ ವೈಫಲ್ಯಗಳಾಗಿವೆ.
- ಫ್ಲಾಗ್ಗಳನ್ನು ಕೇವಲ ದೋಷದ ಸಂಕೇತವಾಗಿ ನೋಡದೆ, ಆಳವಾಗಿ ಹುಡುಕಲು ಪ್ರೇರಣೆಯಾಗಿ ಪರಿಗಣಿಸಿ.
Optional learning community: https://t.me/GyaanSetuAi