AI ರಷ್ಯನ್ ಪ್ರಪಗಾಂಡಾವನ್ನು ಎದುರಿಸಬಲ್ಲದೇ? ಹೊಸ ಬೆಂಚ್ಮಾರ್ಕ್ ವಿಜೇತರನ್ನು ಬಹಿರಂಗಪಡಿಸಿದೆ
ತಪ್ಪು ಮಾಹಿತಿ ಪ್ರಸಾರದ (disinformation) ಅಭಿಯಾನಗಳು ಹೆಚ್ಚು ಹೆಚ್ಚು ಸಂಕೀರ್ಣವಾಗುತ್ತಾ ಸಾಗುತ್ತಿರುವಂತೆ, ಒಂದು ನಿರ್ಣಾಯಕ ಪ್ರಶ್ನೆ ಎದುರಾಗುತ್ತಿದೆ: ದೊಡ್ಡ ಭಾಷಾ ಮಾದರಿಗಳು (LLMs) ಸತ್ಯ ಮತ್ತು ಸರ್ಕಾರಿ ಪ್ರೇರಿತ ಕುತಂತ್ರಗಳ ನಡುವಿನ ವ್ಯತ್ಯಾಸವನ್ನು ಗುರುತಿಸಬಲ್ಲವೇ? ಎಸ್ಟೋನಿಯನ್ ಭಾಷಾ ಸಂಸ್ಥೆಯ (Institute of the Estonian Language) ಇತ್ತೀಚಿನ ಅಧ್ಯಯನವು, 60 ವಿವಿಧ AI ಮಾದರಿಗಳ ರಷ್ಯನ್ ಪ್ರಪಗಾಂಡಾವನ್ನು ಎದುರಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಪರೀಕ್ಷಿಸುವ ಮೂಲಕ ಇದಕ್ಕೆ ಕಠಿಣವಾದ ಉತ್ತರವನ್ನು ನೀಡಿದೆ.
ಕಾರ್ಯವಿಧಾನ: ವೆಬ್ ಪ್ರವೇಶವಿಲ್ಲದೆ ಸ್ಥಿತಿಸ್ಥಾಪಕತ್ವವನ್ನು ಪರೀಕ್ಷಿಸುವುದು
ಫಲಿತಾಂಶಗಳು ಮಾದರಿಗಳ ನೇರ ವೆಬ್ ಬ್ರೌಸಿಂಗ್ ಸಾಮರ್ಥ್ಯಕ್ಕಿಂತ ಹೆಚ್ಚಾಗಿ ಅವುಗಳ ಅಂತರ್ಗತ ತಾರ್ಕಿಕ ಸಾಮರ್ಥ್ಯವನ್ನು ಅಳೆಯುವಂತೆ ಮಾಡಲು, ಸಂಶೋಧಕರು ಸರ್ಚ್ ಇಂಜಿನ್ಗಳು ಅಥವಾ ಬಾಹ್ಯ ಸಾಧನಗಳ ಪ್ರವೇಶವಿಲ್ಲದೆ ಪರೀಕ್ಷೆಗಳನ್ನು ನಡೆಸಿದರು. ಈ ಬೆಂಚ್ಮಾರ್ಕ್ ಮೂರು ಭಾಷೆಗಳಲ್ಲಿ 75 ಪ್ರಶ್ನೆಗಳನ್ನು ಬಳಸಿತು, ಇದು ನಿರ್ದಿಷ್ಟವಾಗಿ 14 ವಿಭಿನ್ನ ಪ್ರಪಗಾಂಡಾ ನಿರೂಪಣೆಗಳನ್ನು (narratives) ಗುರಿಯಾಗಿಸಿಕೊಂಡಿತ್ತು. ಈ ನಿರೂಪಣೆಗಳನ್ನು ತಟಸ್ಥ ಭಾಷಣದಿಂದ ಹಿಡಿದು ಅತ್ಯಂತ ಪಕ್ಷಪಾತದ ಮತ್ತು ಕುತಂತ್ರದ ಪ್ರಾಂಪ್ಟ್ಗಳವರೆಗೆ ವಿವಿಧ ಮಟ್ಟದ ಕಠಿಣತೆಯಲ್ಲಿ ಪ್ರಸ್ತುತಪಡಿಸಲಾಯಿತು.
ಮೌಲ್ಯಮಾಪನ ಪ್ರಕ್ರಿಯೆಯು ಅತ್ಯಂತ ವ್ಯವಸ್ಥಿತವಾಗಿತ್ತು. ಪ್ರತಿ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು 1 ರಿಂದ 5 ರ ಪ್ರಮಾಣದ ಮೇಲೆ ಅಂಕ دادهನ್ನಲಾಗಿದ್ದು, 1 ಅಂಕ ಎಂದರೆ ಮಾದರಿಯು ರಷ್ಯನ್ ವಾದಗಳಿಗೆ ಮಣಿದಿದೆ ಮತ್ತು ಅವುಗಳನ್ನು ಪುನರಾವರ್ತಿಸಿದೆ ಎಂದರ್ಥ. ಹೆಚ್ಚಿನ ನಿಖರತೆಯನ್ನು ಕಾಪಾಡಿಕೊಳ್ಳಲು, ಕ್ಯಾಲಿಬ್ರೇಟ್ ಮಾಡಲಾದ Claude Opus 4.5 ತೀರ್ಪುಗಾರನಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಿತು ಮತ್ತು Propastop ಸಂಸ್ಥೆಯ ತಪ್ಪು ಮಾಹಿತಿ ತಜ್ಞರು ಫಲಿತಾಂಶಗಳನ್ನು ಮತ್ತಷ್ಟು ದೃಢೀಕರಿಸಿದರು.
ತಪ್ಪು ಮಾಹಿತಿ ರಕ್ಷಣೆಯಲ್ಲಿ Anthropic ಮುಂಚೂಣಿಯಲ್ಲಿ
ಫಲಿತಾಂಶಗಳು ವಿವಿಧ AI ಪೂರೈಕೆದಾರರ ನಡುವಿನ ಗಮನಾರ್ಹ ಕಾರ್ಯಕ್ಷಮತೆಯ ವ್ಯತ್ಯಾಸವನ್ನು ಎತ್ತಿ ತೋರಿಸುತ್ತವೆ. ತಪ್ಪು ಮಾಹಿತಿಯನ್ನು ಎದುರಿಸುವಲ್ಲಿ Anthropic ನ Claude ಕುಟುಂಬವು ಉದ್ಯಮದ ನಾಯಕನಾಗಿ ಹೊರಹೊಮ್ಮಿದೆ. ನಿರ್ದಿಷ್ಟವಾಗಿ, Claude Fable 5 (ಇದು ಪ್ರಸ್ತುತ ಅಮೆರಿಕದ ಹೊರಗೆ ನಿರ್ಬಂಧಿತವಾಗಿದೆ) 95.2 ರ ಅತ್ಯುನ್ನತ ಅಂಕವನ್ನು ಪಡೆಯಿತು. ಇದರ ನಂತರ Claude Opus 4.7 ಎರಡನೇ ಸ್ಥಾನದಲ್ಲಿದ್ದು, ಸುರಕ್ಷತೆ ಮತ್ತು ವಾಸ್ತವಿಕ ಸಮಗ್ರತೆಗೆ Anthropic ಅನ್ನು ಪ್ರಸ್ತುತ 'ಗೋಲ್ಡ್ ಸ್ಟ್ಯಾಂಡರ್ಡ್' ಆಗಿ ಸ್ಥಾಪಿಸಿದೆ.
Nvidia ನ Nemotron 3 ಮತ್ತು Alibaba ನ Qwen 3.6 Plus ಇತರ ಗಮನಾರ್ಹ ಸಾಧಕರು, ಇವೆರಡೂ ಕುತಂತ್ರದ ನಿರೂಪಣೆಗಳನ್ನು ಗುರುತಿಸುವ ಮತ್ತು ತಿರಸ್ಕರಿಸುವ ಬಲವಾದ ಸಾಮರ್ಥ್ಯವನ್ನು ಪ್ರದರ್ಶಿಸಿದವು.
Mistral ನ ದುರ್ಬಲತೆ ಮತ್ತು ಯುರೋಪಿಯನ್ AI ಗಾಗಿ ಇರುವ ಪಣ
ಅಮೆರಿಕ ಮತ್ತು ಚೀನಾದ ಮಾದರಿಗಳು ಸಾಮರ್ಥ್ಯವನ್ನು ತೋರಿಸಿದರೂ, ಫ್ರೆಂಚ್ AI ಶಕ್ತಿಶಾಲಿ ಸಂಸ್ಥೆಯಾದ Mistral ಗೆ ಈ ಫಲಿತಾಂಶಗಳು ಹಿನ್ನಡೆಯಾಗಿವೆ. ಇತ್ತೀಚಿನ Medium 3.5 ಸೇರಿದಂತೆ Mistral ನ ಮಾದರಿಗಳು ಬೆಂಚ್ಮಾರ್ಕ್ನ ಕೆಳಮಟ್ಟದ ಮೂರನೇ ಭಾಗದಲ್ಲಿ ಸ್ಥಾನ ಪಡೆದವು. ಈ ಸಂಶೋಧನೆಗಳು Mistral ಗಾಗಿ 36.67 ಪ್ರತಿಶತ ತಪ್ಪು ಮಾಹಿತಿ ದರವನ್ನು ದಾಖಲಿಸಿದ ಹಿಂದಿನ Newsguard ಅಧ್ಯಯನವನ್ನು ಪ್ರತಿಧ್ವನಿಸುತ್ತವೆ.
Mistral ನ ಕಾರ್ಯತಂತ್ರದ ಸ್ಥಾನವನ್ನು ಗಮನದಲ್ಲಿಟ್ಟುಕೊಂಡರೆ ಈ ದುರ್ಬಲತೆಯು ವಿಶೇಷವಾಗಿ ಗಮನಾರ್ಹವಾಗಿದೆ. ಅಮೆರಿಕ ಮೂಲದ ಮತ್ತು ಚೀನಾ ಮೂಲದ AI ಪೂರೈಕೆದಾರರಿಗೆ ಪ್ರಮುಖ ಯುರೋಪಿಯನ್ ಪರ್ಯಾಯವಾಗಿರುವ ಈ ಕಂಪನಿಯು, ಪ್ರಸ್ತುತ €20 ಬಿಲಿಯನ್ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ €3 ಬಿಲಿಯನ್ ಹಣಕಾಸಿನ ನೆರವು (funding round) ಪಡೆಯಲು ಮಾತುಕತೆಯಲ್ಲಿ ತೊಡಗಿದೆ. ತನ್ನನ್ನು ನಂಬಿಕಾರ್ಹ ಸಾರ್ವಭೌಮ AI ಪೂರೈಕೆದಾರ ಎಂದು ಗುರುತಿಸಿಕೊಳ್ಳುತ್ತಿರುವ ಕಂಪನಿಯೊಂದಕ್ಕೆ, ಪ್ರಪಗಾಂಡಾವನ್ನು (propaganda) ನಿರಂತರವಾಗಿ ತಡೆಯಲು ಸಾಧ್ಯವಾಗದಿರುವುದು ದೊಡ್ಡ ಗೌರವ ಮತ್ತು ತಾಂತ್ರಿಕ ಸವಾಲನ್ನು ಎದುರಿಸುವಂತೆ ಮಾಡುತ್ತದೆ.
ಇದು AI ವಲಯಕ್ಕೆ ಏಕೆ ಮುಖ್ಯ
ಈ ಬೆಂಚ್ಮಾರ್ಕ್ನ ಪ್ರಾಮುಖ್ಯತೆಯು ಕೇವಲ ನಿಖರತೆಯ ಅಂಕಗಳಿಗಷ್ಟೇ ಸೀಮಿತವಾಗಿಲ್ಲ. "Pravda" ನಂತಹ ರಷ್ಯನ್ ಡಿಸ್ಇನ್ಫರ್ಮೇಷನ್ ನೆಟ್ವರ್ಕ್ಗಳು, ಭವಿಷ್ಯದ ಮಾದರಿಗಳ ತರ್ಕವನ್ನು "ವಿಷಪೂರಿತಗೊಳಿಸಲು" (poison) ಲಕ್ಷಾಂತರ ಕೃತಕ ಲೇಖನಗಳ ಮೂಲಕ AI ತರಬೇತಿ ಸೆಟ್ಗಳನ್ನು ತುಂಬಲು ಸಕ್ರಿಯವಾಗಿ ಕೆಲಸ ಮಾಡುತ್ತಿವೆ. ಜರ್ಮನ್ ಫೆಡರಲ್ ಚುನಾವಣೆಗಳ ಮೇಲೆ ಪ್ರಭಾವ ಬೀರಲು ChatGPT ಅನ್ನು ಬಳಸುತ್ತಿದ್ದ ರಷ್ಯನ್ ಪ್ರಚಾರಗಳನ್ನು OpenAI ಈಗಾಗಲೇ ಪತ್ತೆಹಚ್ಚಿ ಸ್ಥಗಿತಗೊಳಿಸಿರುವುದರಿಂದ, LLM ಗಳ ಸಮಗ್ರತೆಗಾಗಿ ನಡೆಯುತ್ತಿರುವ ಹೋರಾಟವು ಜಾಗತಿಕ ಮಾಹಿತಿ ಭದ್ರತೆಯಲ್ಲಿ ಒಂದು ಪ್ರಮುಖ ಸಮಸ್ಯೆಯಾಗಿ ಪರಿಣಮಿಸುತ್ತಿದೆ.
ಪ್ರಮುಖ ಅಂಶಗಳು
- Anthropic ಪ್ರಾಬಲ್ಯ: ಪರೀಕ್ಷಿಸಲಾದ ಇತರ ಎಲ್ಲಾ ಮಾದರಿಗಳಿಗೆ ಹೋಲಿಸಿದರೆ, Claude ಮಾದರಿಗಳು, ವಿಶೇಷವಾಗಿ Claude Fable 5, ಪ್ರಪಗಾಂಡಾವನ್ನು ಎದುರಿಸುವಲ್ಲಿ ಅತ್ಯುತ್ತಮ ಸಾಮರ್ಥ್ಯವನ್ನು ಪ್ರದರ್ಶಿಸಿವೆ.
- ಒತ್ತಡದಲ್ಲಿರುವ Mistral: ತನ್ನ ಹೆಚ್ಚಿನ ಮೌಲ್ಯಮಾಪನ ಮತ್ತು ಯುರೋಪಿಯನ್ ಪ್ರಾಮುಖ್ಯತೆಯನ್ನು ಹೊಂದಿದ್ದರೂ ಸಹ, Mistral ಮಾದರಿಗಳು ತಪ್ಪು ಮಾಹಿತಿಯ ವಿಷಯದಲ್ಲಿ ಸಾಕಷ್ಟು ಕಷ್ಟಪಟ್ಟಿವೆ ಮತ್ತು ಅಮೆರಿಕ ಹಾಗೂ ಚೀನಾದ ಪ್ರತಿಸ್ಪರ್ಧಿಗಳ ಹಿಂದೆ ಉಳಿದಿವೆ.
- ತರಬೇತಿಯ ಬೆದರಿಕೆ: ಸರ್ಕಾರಿ ಬೆಂಬಲಿತ ವ್ಯಕ್ತಿಗಳು ಬೃಹತ್ ತಪ್ಪು ಮಾಹಿತಿ ಪ್ರಚಾರಗಳ ಮೂಲಕ LLM ಫಲಿತಾಂಶಗಳನ್ನು ಮಾರ್ಪಡಿಸಲು ಸಕ್ರಿಯವಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿರುವುದರಿಂದ, ಬಲಿಷ್ಠ ರಕ್ಷಣಾ ವ್ಯವಸ್ಥೆಗಳ ತುರ್ತು ಅಗತ್ಯವನ್ನು ಈ ಬೆಂಚ್ಮಾರ್ಕ್ ಎತ್ತಿ ತೋರಿಸುತ್ತದೆ.