AI ರಷ್ಯನ್ ಪ್ರಪಗಾಂಡವನ್ನು ತಡೆದುಕೊಳ್ಳಬಲ್ಲದೇ? ಹೊಸ ಬೆಂಚ್‌ಮಾರ್ಕ್ ವಿಜೇತರನ್ನು ಬಹಿರಂಗಪಡಿಸಿದೆ

📅3 hours ago⏱3 min read

In this article

AI ರಷ್ಯನ್ ಪ್ರಪಗಾಂಡಾವನ್ನು ಎದುರಿಸಬಲ್ಲದೇ? ಹೊಸ ಬೆಂಚ್‌ಮಾರ್ಕ್ ವಿಜೇತರನ್ನು ಬಹಿರಂಗಪಡಿಸಿದೆ

ತಪ್ಪು ಮಾಹಿತಿ ಪ್ರಸಾರದ (disinformation) ಅಭಿಯಾನಗಳು ಹೆಚ್ಚು ಹೆಚ್ಚು ಸಂಕೀರ್ಣವಾಗುತ್ತಾ ಸಾಗುತ್ತಿರುವಂತೆ, ಒಂದು ನಿರ್ಣಾಯಕ ಪ್ರಶ್ನೆ ಎದುರಾಗುತ್ತಿದೆ: ದೊಡ್ಡ ಭಾಷಾ ಮಾದರಿಗಳು (LLMs) ಸತ್ಯ ಮತ್ತು ಸರ್ಕಾರಿ ಪ್ರೇರಿತ ಕುತಂತ್ರಗಳ ನಡುವಿನ ವ್ಯತ್ಯಾಸವನ್ನು ಗುರುತಿಸಬಲ್ಲವೇ? ಎಸ್ಟೋನಿಯನ್ ಭಾಷಾ ಸಂಸ್ಥೆಯ (Institute of the Estonian Language) ಇತ್ತೀಚಿನ ಅಧ್ಯಯನವು, 60 ವಿವಿಧ AI ಮಾದರಿಗಳ ರಷ್ಯನ್ ಪ್ರಪಗಾಂಡಾವನ್ನು ಎದುರಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಪರೀಕ್ಷಿಸುವ ಮೂಲಕ ಇದಕ್ಕೆ ಕಠಿಣವಾದ ಉತ್ತರವನ್ನು ನೀಡಿದೆ.

ಕಾರ್ಯವಿಧಾನ: ವೆಬ್ ಪ್ರವೇಶವಿಲ್ಲದೆ ಸ್ಥಿತಿಸ್ಥಾಪಕತ್ವವನ್ನು ಪರೀಕ್ಷಿಸುವುದು

ಫಲಿತಾಂಶಗಳು ಮಾದರಿಗಳ ನೇರ ವೆಬ್ ಬ್ರೌಸಿಂಗ್ ಸಾಮರ್ಥ್ಯಕ್ಕಿಂತ ಹೆಚ್ಚಾಗಿ ಅವುಗಳ ಅಂತರ್ಗತ ತಾರ್ಕಿಕ ಸಾಮರ್ಥ್ಯವನ್ನು ಅಳೆಯುವಂತೆ ಮಾಡಲು, ಸಂಶೋಧಕರು ಸರ್ಚ್ ಇಂಜಿನ್‌ಗಳು ಅಥವಾ ಬಾಹ್ಯ ಸಾಧನಗಳ ಪ್ರವೇಶವಿಲ್ಲದೆ ಪರೀಕ್ಷೆಗಳನ್ನು ನಡೆಸಿದರು. ಈ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಮೂರು ಭಾಷೆಗಳಲ್ಲಿ 75 ಪ್ರಶ್ನೆಗಳನ್ನು ಬಳಸಿತು, ಇದು ನಿರ್ದಿಷ್ಟವಾಗಿ 14 ವಿಭಿನ್ನ ಪ್ರಪಗಾಂಡಾ ನಿರೂಪಣೆಗಳನ್ನು (narratives) ಗುರಿಯಾಗಿಸಿಕೊಂಡಿತ್ತು. ಈ ನಿರೂಪಣೆಗಳನ್ನು ತಟಸ್ಥ ಭಾಷಣದಿಂದ ಹಿಡಿದು ಅತ್ಯಂತ ಪಕ್ಷಪಾತದ ಮತ್ತು ಕುತಂತ್ರದ ಪ್ರಾಂಪ್ಟ್‌ಗಳವರೆಗೆ ವಿವಿಧ ಮಟ್ಟದ ಕಠಿಣತೆಯಲ್ಲಿ ಪ್ರಸ್ತುತಪಡಿಸಲಾಯಿತು.

ಮೌಲ್ಯಮಾಪನ ಪ್ರಕ್ರಿಯೆಯು ಅತ್ಯಂತ ವ್ಯವಸ್ಥಿತವಾಗಿತ್ತು. ಪ್ರತಿ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು 1 ರಿಂದ 5 ರ ಪ್ರಮಾಣದ ಮೇಲೆ ಅಂಕ دادهನ್ನಲಾಗಿದ್ದು, 1 ಅಂಕ ಎಂದರೆ ಮಾದರಿಯು ರಷ್ಯನ್ ವಾದಗಳಿಗೆ ಮಣಿದಿದೆ ಮತ್ತು ಅವುಗಳನ್ನು ಪುನರಾವರ್ತಿಸಿದೆ ಎಂದರ್ಥ. ಹೆಚ್ಚಿನ ನಿಖರತೆಯನ್ನು ಕಾಪಾಡಿಕೊಳ್ಳಲು, ಕ್ಯಾಲಿಬ್ರೇಟ್ ಮಾಡಲಾದ Claude Opus 4.5 ತೀರ್ಪುಗಾರನಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಿತು ಮತ್ತು Propastop ಸಂಸ್ಥೆಯ ತಪ್ಪು ಮಾಹಿತಿ ತಜ್ಞರು ಫಲಿತಾಂಶಗಳನ್ನು ಮತ್ತಷ್ಟು ದೃಢೀಕರಿಸಿದರು.

ತಪ್ಪು ಮಾಹಿತಿ ರಕ್ಷಣೆಯಲ್ಲಿ Anthropic ಮುಂಚೂಣಿಯಲ್ಲಿ

ಫಲಿತಾಂಶಗಳು ವಿವಿಧ AI ಪೂರೈಕೆದಾರರ ನಡುವಿನ ಗಮನಾರ್ಹ ಕಾರ್ಯಕ್ಷಮತೆಯ ವ್ಯತ್ಯಾಸವನ್ನು ಎತ್ತಿ ತೋರಿಸುತ್ತವೆ. ತಪ್ಪು ಮಾಹಿತಿಯನ್ನು ಎದುರಿಸುವಲ್ಲಿ Anthropic ನ Claude ಕುಟುಂಬವು ಉದ್ಯಮದ ನಾಯಕನಾಗಿ ಹೊರಹೊಮ್ಮಿದೆ. ನಿರ್ದಿಷ್ಟವಾಗಿ, Claude Fable 5 (ಇದು ಪ್ರಸ್ತುತ ಅಮೆರಿಕದ ಹೊರಗೆ ನಿರ್ಬಂಧಿತವಾಗಿದೆ) 95.2 ರ ಅತ್ಯುನ್ನತ ಅಂಕವನ್ನು ಪಡೆಯಿತು. ಇದರ ನಂತರ Claude Opus 4.7 ಎರಡನೇ ಸ್ಥಾನದಲ್ಲಿದ್ದು, ಸುರಕ್ಷತೆ ಮತ್ತು ವಾಸ್ತವಿಕ ಸಮಗ್ರತೆಗೆ Anthropic ಅನ್ನು ಪ್ರಸ್ತುತ 'ಗೋಲ್ಡ್ ಸ್ಟ್ಯಾಂಡರ್ಡ್' ಆಗಿ ಸ್ಥಾಪಿಸಿದೆ.

Nvidia ನ Nemotron 3 ಮತ್ತು Alibaba ನ Qwen 3.6 Plus ಇತರ ಗಮನಾರ್ಹ ಸಾಧಕರು, ಇವೆರಡೂ ಕುತಂತ್ರದ ನಿರೂಪಣೆಗಳನ್ನು ಗುರುತಿಸುವ ಮತ್ತು ತಿರಸ್ಕರಿಸುವ ಬಲವಾದ ಸಾಮರ್ಥ್ಯವನ್ನು ಪ್ರದರ್ಶಿಸಿದವು.

Mistral ನ ದುರ್ಬಲತೆ ಮತ್ತು ಯುರೋಪಿಯನ್ AI ಗಾಗಿ ಇರುವ ಪಣ

ಅಮೆರಿಕ ಮತ್ತು ಚೀನಾದ ಮಾದರಿಗಳು ಸಾಮರ್ಥ್ಯವನ್ನು ತೋರಿಸಿದರೂ, ಫ್ರೆಂಚ್ AI ಶಕ್ತಿಶಾಲಿ ಸಂಸ್ಥೆಯಾದ Mistral ಗೆ ಈ ಫಲಿತಾಂಶಗಳು ಹಿನ್ನಡೆಯಾಗಿವೆ. ಇತ್ತೀಚಿನ Medium 3.5 ಸೇರಿದಂತೆ Mistral ನ ಮಾದರಿಗಳು ಬೆಂಚ್‌ಮಾರ್ಕ್‌ನ ಕೆಳಮಟ್ಟದ ಮೂರನೇ ಭಾಗದಲ್ಲಿ ಸ್ಥಾನ ಪಡೆದವು. ಈ ಸಂಶೋಧನೆಗಳು Mistral ಗಾಗಿ 36.67 ಪ್ರತಿಶತ ತಪ್ಪು ಮಾಹಿತಿ ದರವನ್ನು ದಾಖಲಿಸಿದ ಹಿಂದಿನ Newsguard ಅಧ್ಯಯನವನ್ನು ಪ್ರತಿಧ್ವನಿಸುತ್ತವೆ.

Mistral ನ ಕಾರ್ಯತಂತ್ರದ ಸ್ಥಾನವನ್ನು ಗಮನದಲ್ಲಿಟ್ಟುಕೊಂಡರೆ ಈ ದುರ್ಬಲತೆಯು ವಿಶೇಷವಾಗಿ ಗಮನಾರ್ಹವಾಗಿದೆ. ಅಮೆರಿಕ ಮೂಲದ ಮತ್ತು ಚೀನಾ ಮೂಲದ AI ಪೂರೈಕೆದಾರರಿಗೆ ಪ್ರಮುಖ ಯುರೋಪಿಯನ್ ಪರ್ಯಾಯವಾಗಿರುವ ಈ ಕಂಪನಿಯು, ಪ್ರಸ್ತುತ €20 ಬಿಲಿಯನ್ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ €3 ಬಿಲಿಯನ್ ಹಣಕಾಸಿನ ನೆರವು (funding round) ಪಡೆಯಲು ಮಾತುಕತೆಯಲ್ಲಿ ತೊಡಗಿದೆ. ತನ್ನನ್ನು ನಂಬಿಕಾರ್ಹ ಸಾರ್ವಭೌಮ AI ಪೂರೈಕೆದಾರ ಎಂದು ಗುರುತಿಸಿಕೊಳ್ಳುತ್ತಿರುವ ಕಂಪನಿಯೊಂದಕ್ಕೆ, ಪ್ರಪಗಾಂಡಾವನ್ನು (propaganda) ನಿರಂತರವಾಗಿ ತಡೆಯಲು ಸಾಧ್ಯವಾಗದಿರುವುದು ದೊಡ್ಡ ಗೌರವ ಮತ್ತು ತಾಂತ್ರಿಕ ಸವಾಲನ್ನು ಎದುರಿಸುವಂತೆ ಮಾಡುತ್ತದೆ.

ಇದು AI ವಲಯಕ್ಕೆ ಏಕೆ ಮುಖ್ಯ

ಈ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ನ ಪ್ರಾಮುಖ್ಯತೆಯು ಕೇವಲ ನಿಖರತೆಯ ಅಂಕಗಳಿಗಷ್ಟೇ ಸೀಮಿತವಾಗಿಲ್ಲ. "Pravda" ನಂತಹ ರಷ್ಯನ್ ಡಿಸ್‌ಇನ್ಫರ್ಮೇಷನ್ ನೆಟ್‌ವರ್ಕ್‌ಗಳು, ಭವಿಷ್ಯದ ಮಾದರಿಗಳ ತರ್ಕವನ್ನು "ವಿಷಪೂರಿತಗೊಳಿಸಲು" (poison) ಲಕ್ಷಾಂತರ ಕೃತಕ ಲೇಖನಗಳ ಮೂಲಕ AI ತರಬೇತಿ ಸೆಟ್‌ಗಳನ್ನು ತುಂಬಲು ಸಕ್ರಿಯವಾಗಿ ಕೆಲಸ ಮಾಡುತ್ತಿವೆ. ಜರ್ಮನ್ ಫೆಡರಲ್ ಚುನಾವಣೆಗಳ ಮೇಲೆ ಪ್ರಭಾವ ಬೀರಲು ChatGPT ಅನ್ನು ಬಳಸುತ್ತಿದ್ದ ರಷ್ಯನ್ ಪ್ರಚಾರಗಳನ್ನು OpenAI ಈಗಾಗಲೇ ಪತ್ತೆಹಚ್ಚಿ ಸ್ಥಗಿತಗೊಳಿಸಿರುವುದರಿಂದ, LLM ಗಳ ಸಮಗ್ರತೆಗಾಗಿ ನಡೆಯುತ್ತಿರುವ ಹೋರಾಟವು ಜಾಗತಿಕ ಮಾಹಿತಿ ಭದ್ರತೆಯಲ್ಲಿ ಒಂದು ಪ್ರಮುಖ ಸಮಸ್ಯೆಯಾಗಿ ಪರಿಣಮಿಸುತ್ತಿದೆ.

ಪ್ರಮುಖ ಅಂಶಗಳು

Anthropic ಪ್ರಾಬಲ್ಯ: ಪರೀಕ್ಷಿಸಲಾದ ಇತರ ಎಲ್ಲಾ ಮಾದರಿಗಳಿಗೆ ಹೋಲಿಸಿದರೆ, Claude ಮಾದರಿಗಳು, ವಿಶೇಷವಾಗಿ Claude Fable 5, ಪ್ರಪಗಾಂಡಾವನ್ನು ಎದುರಿಸುವಲ್ಲಿ ಅತ್ಯುತ್ತಮ ಸಾಮರ್ಥ್ಯವನ್ನು ಪ್ರದರ್ಶಿಸಿವೆ.
ಒತ್ತಡದಲ್ಲಿರುವ Mistral: ತನ್ನ ಹೆಚ್ಚಿನ ಮೌಲ್ಯಮಾಪನ ಮತ್ತು ಯುರೋಪಿಯನ್ ಪ್ರಾಮುಖ್ಯತೆಯನ್ನು ಹೊಂದಿದ್ದರೂ ಸಹ, Mistral ಮಾದರಿಗಳು ತಪ್ಪು ಮಾಹಿತಿಯ ವಿಷಯದಲ್ಲಿ ಸಾಕಷ್ಟು ಕಷ್ಟಪಟ್ಟಿವೆ ಮತ್ತು ಅಮೆರಿಕ ಹಾಗೂ ಚೀನಾದ ಪ್ರತಿಸ್ಪರ್ಧಿಗಳ ಹಿಂದೆ ಉಳಿದಿವೆ.
ತರಬೇತಿಯ ಬೆದರಿಕೆ: ಸರ್ಕಾರಿ ಬೆಂಬಲಿತ ವ್ಯಕ್ತಿಗಳು ಬೃಹತ್ ತಪ್ಪು ಮಾಹಿತಿ ಪ್ರಚಾರಗಳ ಮೂಲಕ LLM ಫಲಿತಾಂಶಗಳನ್ನು ಮಾರ್ಪಡಿಸಲು ಸಕ್ರಿಯವಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿರುವುದರಿಂದ, ಬಲಿಷ್ಠ ರಕ್ಷಣಾ ವ್ಯವಸ್ಥೆಗಳ ತುರ್ತು ಅಗತ್ಯವನ್ನು ಈ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಎತ್ತಿ ತೋರಿಸುತ್ತದೆ.

AI ರಷ್ಯನ್ ಪ್ರಪಗಾಂಡವನ್ನು ತಡೆದುಕೊಳ್ಳಬಲ್ಲದೇ? ಹೊಸ ಬೆಂಚ್‌ಮಾರ್ಕ್ ವಿಜೇತರನ್ನು ಬಹಿರಂಗಪಡಿಸಿದೆ

AI ರಷ್ಯನ್ ಪ್ರಪಗಾಂಡಾವನ್ನು ಎದುರಿಸಬಲ್ಲದೇ? ಹೊಸ ಬೆಂಚ್‌ಮಾರ್ಕ್ ವಿಜೇತರನ್ನು ಬಹಿರಂಗಪಡಿಸಿದೆ

ಕಾರ್ಯವಿಧಾನ: ವೆಬ್ ಪ್ರವೇಶವಿಲ್ಲದೆ ಸ್ಥಿತಿಸ್ಥಾಪಕತ್ವವನ್ನು ಪರೀಕ್ಷಿಸುವುದು

ತಪ್ಪು ಮಾಹಿತಿ ರಕ್ಷಣೆಯಲ್ಲಿ Anthropic ಮುಂಚೂಣಿಯಲ್ಲಿ

Mistral ನ ದುರ್ಬಲತೆ ಮತ್ತು ಯುರೋಪಿಯನ್ AI ಗಾಗಿ ಇರುವ ಪಣ

ಇದು AI ವಲಯಕ್ಕೆ ಏಕೆ ಮುಖ್ಯ

ಪ್ರಮುಖ ಅಂಶಗಳು

Continue reading

𝗧𝗵𝗲 𝗚𝗿𝗲𝗮𝗍 𝗔𝗜 𝗗𝗶𝘃𝗲𝗿𝗴𝗲𝗻𝗰𝗲

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗔𝗻 𝗟𝗟𝗠 𝗔𝗻𝗱 𝗧𝗵𝗲𝗻 𝗦𝗮𝗶𝗱 𝗡𝗼

𝗧𝗵𝗲 𝗨𝗦 𝗚𝗼𝘃𝗲𝗿𝗻𝗺𝗲𝗻𝘁 𝗥𝗲𝗰𝗮𝗹𝗹𝗲𝗱 𝗔𝗻 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹

AI ರೆಡ್ ಟೀಮಿಂಗ್: ಪ್ರತಿಕೂಲ ಅಪಾಯಗಳಿಂದ ದೊಡ್ಡ ಭಾಷಾ ಮಾದರಿಗಳನ್ನು ರಕ್ಷಿಸುವುದು

Probably Raises $9M to Combat LLM Hallucinations with Precision Engineering