ಮುಂಚೂಣಿಯಲ್ಲಿರುವ ಎಐ ಮಾದರಿಗಳು ಹಣಕಾಸಿನ ಟ್ರೈಯಾಜ್ ಪರೀಕ್ಷೆಗಳಲ್ಲಿ ಏಕೆ ವಿಫಲವಾಗುತ್ತವೆ?

Translated for your language. Read the original.

AI-assisted draft.

ಮುಂಚೂಣಿಯಲ್ಲಿರುವ ಎಐ ಮಾದರಿಗಳು ಹಣಕಾಸಿನ ಟ್ರೈಯಾಜ್ ಪರೀಕ್ಷೆಗಳಲ್ಲಿ ಏಕೆ ವಿಫಲವಾಗುತ್ತವೆ?

In this article

ಮುಂಚೂಣಿಯಲ್ಲಿರುವ AI ಮಾದರಿಗಳು ಹಣಕಾಸಿನ ಆದ್ಯತೆ ನಿರ್ಧಾರದ (Triage) ಪರೀಕ್ಷೆಗಳಲ್ಲಿ ಏಕೆ ವಿಫಲವಾಗುತ್ತವೆ

GPT-4 ಮತ್ತು Claude ನಂತಹ ಬೃಹತ್ LLMಗಳು ಸಾಮಾನ್ಯ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳಲ್ಲಿ ಪ್ರಾಬಲ್ಯ ಹೊಂದಿದ್ದರೂ, ಹೆಚ್ಚಿನ ಅಪಾಯವಿರುವ ಹಣಕಾಸಿನ ವಾತಾವರಣಗಳಲ್ಲಿ ಅಗತ್ಯವಿರುವ ಸೂಕ್ಷ್ಮ ನಿರ್ಧಾರಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುವಲ್ಲಿ ಅವು ಕಷ್ಟಪಡುತ್ತಿವೆ. Bridgewater ಸಂಸ್ಥೆಯ AIA Labs ಮತ್ತು Thinking Machines Lab ನೀಡಿದ ಹೊಸ ವರದಿಯ ಪ್ರಕಾರ, ವಿಶ್ವದ ಅತ್ಯಾಧುನಿಕ ಮಾದರಿಗಳು ಸಹ ವೃತ್ತಿಪರ ಹೂಡಿಕೆ ಕಾರ್ಯವಿಧಾನಗಳಿಗೆ ಅಗತ್ಯವಿರುವ ನಿಖರತೆಯ ಮಿತಿಗಳನ್ನು ತಲುಪಲು ವಿಫಲವಾಗುತ್ತಿವೆ.

ಸಾಮಾನ್ಯ ಬುದ್ಧಿಶಕ್ತಿ ಮತ್ತು ಹಣಕಾಸಿನ ನಿರ್ಧಾರಗಳ ನಡುವಿನ ಅಂತರ

ಹಣಕಾಸಿನ ಕ್ಷೇತ್ರದಲ್ಲಿನ ಮೂಲ ಸವಾಲು ಕೇವಲ ಡೇಟಾವನ್ನು ಓದುವುದಲ್ಲ; ಅದು ನಿರಂತರವಾಗಿ ಬರುವ "ಟ್ರಯಾಜ್" (triage) — ಅಂದರೆ ಯಾವ ಮಾಹಿತಿ ನಿಜವಾಗಿಯೂ ಮುಖ್ಯ ಎಂಬುದನ್ನು ನಿರ್ಧರಿಸುವುದು. ಹೂಡಿಕೆದಾರರ ದೈನಂದಿನ ದಿನಚರಿಯ ಆಧಾರದ ಮೇಲೆ ಸಂಶೋಧಕರು ಆರು ನಿರ್ಣಾಯಕ ಕಾರ್ಯಗಳನ್ನು ವ್ಯಾಖ್ಯಾನಿಸಿದ್ದಾರೆ. ಉದಾಹರಣೆಗೆ, ಕೇಂದ್ರ ಬ್ಯಾಂಕ್‌ನ ಒಂದು ದಾಖಲೆಯು ಬಡ್ಡಿ ದರಗಳಲ್ಲಿ ಬದಲಾವಣೆಯನ್ನು ಸೂಚಿಸುತ್ತದೆಯೇ ಅಥವಾ ಒಂದು ಸುದ್ದಿಯ ಮುಖ್ಯಾಂಶವು ನಿರ್ದಿಷ್ಟ ಕಾರ್ಯನಿರ್ವಾಹಕರಿಗೆ ಸಂಬಂಧಿಸಿದ್ದೇ ಎಂಬುದನ್ನು ನಿರ್ಧರಿಸುವುದು.

ಈ ಪರೀಕ್ಷೆಗಳಲ್ಲಿ, Gemini, Claude ಮತ್ತು GPT ವಿಧದಂತಹ ಮುಂಚೂಣಿಯಲ್ಲಿರುವ ಮಾದರಿಗಳು ಮೂಲ ಪ್ರಾಂಪ್ಟಿಂಗ್ (basic prompting) ಬಳಸಿದಾಗ ಕೇವಲ ಶೇಕಡಾ 50 ರಷ್ಟು ನಿಖರತೆಯನ್ನು ಮಾತ್ರ ಸಾಧಿಸಿವೆ. ಸಂಶೋಧಕರು ತಜ್ಞರು ಬರೆದ ಸೂಚನೆಗಳನ್ನು ಮತ್ತು ಅತ್ಯಾಧುನಿಕ ಮೂರು ಹಂತದ ರೇಟಿಂಗ್ ವ್ಯವಸ್ಥೆಯನ್ನು — ಮಾಹಿತಿಯನ್ನು "ಸಂಬಂಧಿತ ಮತ್ತು ಆಸಕ್ತಿದಾಯಕ," "ಸಂಬಂಧಿತ ಆದರೆ ಆಸಕ್ತಿ ಇಲ್ಲದ," ಅಥವಾ "ಸಂಬಂಧವಿಲ್ಲದ" ಎಂದು ವರ್ಗೀಕರಿಸುವ ವಿಧಾನವನ್ನು — ಬಳಸಿದಾಗಲೂ, ನಿಖರತೆಯು ಶೇಕಡಾ 70 ರ ಮಧ್ಯಮ ಮಟ್ಟಕ್ಕೆ ಮಾತ್ರ ಏರಿತು. ಇದು ಹೆಡ್ಜ್ ಫಂಡ್ ವಾತಾವರಣದಲ್ಲಿ ವಿಶ್ವಾಸಾರ್ಹ, ಸ್ವಯಂಚಾಲಿತ ಬಳಕೆಗೆ ಅಗತ್ಯವಿರುವ ಶೇಕಡಾ 80 ರ ನಿಖರತೆಯ ಮಿತಿಗಿಂತ ಕಡಿಮೆ ಇತ್ತು.

ಓಪನ್-ವೇಟ್ ಮಾದರಿಗಳ ಫೈನ್-ಟ್ಯೂನಿಂಗ್: ದಕ್ಷತೆಯ ಕ್ರಾಂತಿ

ವೃತ್ತಿಪರ ಮಟ್ಟದ AI ತಲುಪುವ ಹಾದಿಯು ಕಡ್ಡಾಯವಾಗಿ ದೊಡ್ಡದಾದ, ಹೆಚ್ಚು ದುಬಾರಿಯಾದ ಮಾಲೀಕತ್ವದ (proprietary) ಮಾದರಿಗಳ ಮೂಲಕವೇ ಇರಬೇಕಿಲ್ಲ, ಬದಲಾಗಿ ಮಾಲೀಕತ್ವದ ಪರಿಣತಿಯನ್ನು ಬಳಸಿಕೊಂಡು ಓಪನ್-ವೇಟ್ ಮಾದರಿಗಳನ್ನು ಫೈನ್-ಟ್ಯೂನ್ ಮಾಡುವುದರ ಮೂಲಕವೂ ಸಾಧ್ಯ ಎಂದು ಈ ಅಧ್ಯಯನವು ತೋರಿಸುತ್ತದೆ. ಮಾಜಿ OpenAI CTO Mira Murati ಅವರು ಸ್ಥಾಪಿಸಿದ Thinking Machines Lab, ತನ್ನ Tinker ಪ್ಲಾಟ್‌ಫಾರ್ಮ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು Qwen3-235B ಆಧಾರಿತ ಮಾದರಿಯನ್ನು ತರಬೇತಿಗೊಳಿಸಿತು.

ಇದರ ಫಲಿತಾಂಶಗಳು ಗಮನಾರ್ಹವಾಗಿದ್ದವು. ಫೈನ್-ಟ್ಯೂನ್ ಮಾಡಿದ ಮಾದರಿಯು 84.7% ನಿಖರತೆಯನ್ನು ಸಾಧಿಸಿತು, ಇದು ಪರೀಕ್ಷಿಸಲಾದ ಅತ್ಯುತ್ತಮ ಮುಂಚೂಣಿಯ ಮಾದರಿಗಿಂತ (78.2%) ಉತ್ತಮ ಪ್ರದರ್ಶನ ನೀಡಿತು ಮತ್ತು ನಿರ್ವಹಣಾ ವೆಚ್ಚವು ಸುಮಾರು 14 ಪಟ್ಟು ಕಡಿಮೆಯಿತ್ತು. ಇದು ಒಂದು ಪ್ರಮುಖ ಆರ್ಥಿಕ ವಾಸ್ತವವನ್ನು ಎತ್ತಿ ತೋರಿಸುತ್ತದೆ: GPT-5.4 ನಂತಹ ಹೊಸ ಮತ್ತು ದೊಡ್ಡ ಮಾದರಿಗಳು ಅಲ್ಪ ಪ್ರಮಾಣದ ಸುಧಾರಣೆಗಳಿಗಾಗಿ ಹೆಚ್ಚಿನ ವೆಚ್ಚವನ್ನು ಭರಿಸಬೇಕಾಗುತ್ತಿದ್ದು, ಅವುಗಳಿಂದ ಸಿಗುವ ಲಾಭವು ಕ್ಷೀಣಿಸುತ್ತಿದೆ.

ಮಾಲೀಕತ್ವದ ಡೇಟಾ ಮತ್ತು ಮಾನವ ಪ್ರತಿಕ್ರಿಯೆಯ ಶಕ್ತಿ

ಈ ಬೆಳವಣಿಗೆಯಿಂದ ಸಿಕ್ಕ ಪ್ರಮುಖ ತಾಂತ್ರಿಕ ಅಂಶವೆಂದರೆ ಮಾನವ ಪರಿಣತಿಯನ್ನು ವಿಸ್ತರಿಸಲು ಬಳಸಲಾದ ವಿಧಾನ. ಪ್ರತಿಯೊಂದು ದಾಖಲೆಗೆ ದುಬಾರಿ ಹೂಡಿಕೆದಾರರಿಂದ ಲೇಬಲ್ ಮಾಡಿಸುವ ಬದಲು, ತಂಡವು ಚತುರವಾದ "ಅಸಮ್ಮತಿ" (disagreement) ಲೂಪ್ ಅನ್ನು ಬಳಸಿತು. ಮೊದಲು ಒಂದು ಮಾದರಿಯು ಆರಂಭಿಕ ಲೇಬಲ್‌ಗಳಿಂದ ಕಲಿಯುತ್ತದೆ; ಮಾದರಿಯ ಮೌಲ್ಯಮಾಪನವು ಮೂಲ ಲೇಬಲ್‌ಗೆ ವಿರುದ್ಧವಾಗಿದ್ದಾಗ, ಆ ನಿರ್ದಿಷ್ಟ ಪ್ರಕರಣವನ್ನು ಮಾನವ ವಿಮರ್ಶೆಗಾಗಿ ಗುರುತಿಸಲಾಗುತ್ತದೆ. ಇದು ಹೂಡಿಕೆದಾರರ ಅಮೂಲ್ಯ ಸಮಯವನ್ನು ಕೇವಲ ನಿಜವಾದ ತಪ್ಪುಗಳನ್ನು ತಿದ್ದಲು ಮಾತ್ರ ಬಳಸುವಂತೆ ಮಾಡಿತು ಮತ್ತು ಫೈನ್-ಟ್ಯೂನಿಂಗ್‌ಗಾಗಿ ಉತ್ತಮ ಗುಣಮಟ್ಟದ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಸೃಷ್ಟಿಸಿತು.

ಈ ವಿಧಾನವು "ಡೇಟಾ ಮೋಟ್" (data moat) ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸುತ್ತದೆ. ದೊಡ್ಡ ಪ್ರಯೋಗಾಲಯಗಳು ಸಾರ್ವಜನಿಕ ಇಂಟರ್ನೆಟ್‌ನ ಹೆಚ್ಚಿನ ಭಾಗವನ್ನು ಸ್ಕ್ರೇಪ್ ಮಾಡಿದ್ದರೂ, ಹಣಕಾಸು ವೃತ್ತಿಪರರ ಮೆದುಳಿನಲ್ಲಿರುವ ಖಾಸಗಿ ಮತ್ತು ಸೂಕ್ಷ್ಮ ನಿರ್ಧಾರಗಳ ಪ್ರವೇಶ ಅವರಿಗೆ ಇಲ್ಲ. ಓಪನ್-ವೇಟ್ ಮಾದರಿಗಳನ್ನು ಬಳಸುವ ಮೂಲಕ, ಕಂಪನಿಗಳು ತಮ್ಮ ಮಾಲೀಕತ್ವದ ಡೇಟಾ, ತಮ್ಮ ವೇಟ್ಸ್ (weights) ಮತ್ತು ತಮ್ಮ ಸ್ಪರ್ಧಾತ್ಮಕ ಅನುಕೂಲಗಳನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ತಮ್ಮದೇ ಆದ ಒಳಗಿನ ವ್ಯವಸ್ಥೆಯಲ್ಲಿ ಇಟ್ಟುಕೊಳ್ಳಬಹುದು.

ಪ್ರಮುಖ ಅಂಶಗಳು

ಮುಂಚೂಣಿಯಲ್ಲಿರುವ ಮಾದರಿಗಳ ಮಿತಿಗಳು: ಸಾಮಾನ್ಯ ಉದ್ದೇಶದ LLMಗಳು ವಿಶೇಷ ಹಣಕಾಸಿನ ಆದ್ಯತೆ ನಿರ್ಧಾರದೊಂದಿಗೆ (triage) ಹೋರಾಡುತ್ತಿವೆ ಮತ್ತು ವೃತ್ತಿಪರ ಬಳಕೆಗೆ ಅಗತ್ಯವಿರುವ ಶೇಕಡಾ 80 ರ ನಿಖರತೆಯ ಮಿತಿಯನ್ನು ತಲುಪಲು ವಿಫಲವಾಗುತ್ತಿವೆ.
ಓಪನ್-ವೇಟ್ ಮಾದರಿಗಳ ಮೂಲಕ ದಕ್ಷತೆ: Qwen3-235B ಆಧಾರಿತ ಮಾದರಿಗಳಂತಹ ಫೈನ್-ಟ್ಯೂನ್ ಮಾಡಿದ ಮಾದರಿಗಳು, ಅತ್ಯಲ್ಪ ನಿರ್ವಹಣಾ ವೆಚ್ಚದಲ್ಲಿ ಮಾಲೀಕತ್ವದ ದೈತ್ಯ ಮಾದರಿಗಳಿಗಿಂತ ಉತ್ತಮ ಪ್ರದರ್ಶನ ನೀಡಬಲ್ಲವು.
ಖಾಸಗಿ ಡೇಟಾದ ಮೌಲ್ಯ: AI ಕ್ಷೇತ್ರದಲ್ಲಿನ ಅತ್ಯಂತ ಗಮನಾರ್ಹ ಪ್ರಗತಿಯು ಈಗ ಮಾಲೀಕತ್ವದ, "ಸ್ಕ್ರೇಪ್ ಮಾಡದ" ಕಾರ್ಪೊರೇಟ್ ಡೇಟಾ ಮತ್ತು ಮಾನವ ತಜ್ಞರ ವಿಶೇಷ ನಿರ್ಧಾರಗಳಲ್ಲಿ ಅಡಗಿದೆ.

ಮುಂಚೂಣಿಯಲ್ಲಿರುವ ಎಐ ಮಾದರಿಗಳು ಹಣಕಾಸಿನ ಟ್ರೈಯಾಜ್ ಪರೀಕ್ಷೆಗಳಲ್ಲಿ ಏಕೆ ವಿಫಲವಾಗುತ್ತವೆ?

ಮುಂಚೂಣಿಯಲ್ಲಿರುವ AI ಮಾದರಿಗಳು ಹಣಕಾಸಿನ ಆದ್ಯತೆ ನಿರ್ಧಾರದ (Triage) ಪರೀಕ್ಷೆಗಳಲ್ಲಿ ಏಕೆ ವಿಫಲವಾಗುತ್ತವೆ

ಸಾಮಾನ್ಯ ಬುದ್ಧಿಶಕ್ತಿ ಮತ್ತು ಹಣಕಾಸಿನ ನಿರ್ಧಾರಗಳ ನಡುವಿನ ಅಂತರ

ಓಪನ್-ವೇಟ್ ಮಾದರಿಗಳ ಫೈನ್-ಟ್ಯೂನಿಂಗ್: ದಕ್ಷತೆಯ ಕ್ರಾಂತಿ

ಮಾಲೀಕತ್ವದ ಡೇಟಾ ಮತ್ತು ಮಾನವ ಪ್ರತಿಕ್ರಿಯೆಯ ಶಕ್ತಿ

ಪ್ರಮುಖ ಅಂಶಗಳು

Continue reading

ಎಐ ವಿವೇಚನೆಯನ್ನು ಬದಲಿಸುವುದಿಲ್ಲ

ಹೊಸ AA ಬ್ರೀಫ್‌ಕೇಸ್ ಬೆಂಚ್‌ಮಾರ್ಕ್ ನೈಜ ಜ್ಞಾನದ ಕೆಲಸದಲ್ಲಿ AI ಎದುರಿಸುತ್ತಿರುವ ಸವಾಲನ್ನು ಬಹಿರಂಗಪಡಿಸಿದೆ

AI ಮಾದರಿಗಳನ್ನು ಫೈನ್ ಟ್ಯೂನ್ ಮಾಡುವುದು ಈಗ ಕೇವಲ ML ಇಂಜಿನಿಯರ್‌ಗಳಿಗೆ ಮಾತ್ರ ಸೀಮಿತವಾಗಿಲ್ಲ

ಸಾಫ್ಟ್‌ವೇರ್ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳಲ್ಲಿ OpenAI ನ GPT 5.6 Sol ಮೋಸ ಮಾಡುತ್ತಿರುವುದು ಪತ್ತೆಯಾಗಿದೆ

ಪ್ರಮಾಣಿತ AI ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಏಜೆಂಟ್ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಏಕೆ ವ್ಯವಸ್ಥಿತವಾಗಿ ಕಡಿಮೆ ಅಂದಾಜಿಸುತ್ತವೆ?