அதிநவீன AI மாதிரிகள் ஏன் நிதி முன்னுரிமைத் தீர்மானிக்கும் சோதனைகளில் தோல்வியடைகின்றன?

Translated for your language. Read the original.

AI-assisted draft.

அதிநவீன AI மாதிரிகள் ஏன் நிதி முன்னுரிமைத் தீர்மானிக்கும் சோதனைகளில் தோல்வியடைகின்றன?

In this article

ஏன் முன்னணி AI மாதிரிகள் நிதித் தரம் பிரித்தல் (Financial Triage) சோதனைகளில் தோல்வியடைகின்றன

GPT-4 மற்றும் Claude போன்ற பிரம்மாண்டமான LLM-கள் பொதுவான அளவீடுகளில் (benchmarks) ஆதிக்கம் செலுத்தினாலும், அதிக முக்கியத்துவம் வாய்ந்த நிதிச் சூழல்களில் தேவைப்படும் நுணுக்கமான முடிவெடுக்கும் திறனைப் பிரதிபலிக்க அவை போராடுகின்றன. Bridgewater-வின் AIA Labs மற்றும் Thinking Machines Lab ஆகியவற்றின் புதிய அறிக்கை, உலகின் மிகவும் மேம்பட்ட மாதிரிகள் கூட தொழில்முறை முதலீட்டுப் பணிகளுக்குத் தேவையான துல்லியத் வரம்புகளை (accuracy thresholds) எட்டுவதில் தோல்வியடைகின்றன என்பதை வெளிப்படுத்துகிறது.

பொது அறிவுக்கும் நிதி சார்ந்த முடிவெடுத்தலுக்கும் இடையிலான இடைவெளி

நிதியியலில் உள்ள முக்கிய சவால் வெறும் தரவுகளைப் படிப்பது மட்டுமல்ல; அது "தரம் பிரித்தல்" (triage) எனப்படும் தொடர்ச்சியான செயல்முறைதான்—அதாவது எந்தத் தகவல் உண்மையில் முக்கியமானது என்பதைத் தீர்மானிப்பது. ஒரு முதலீட்டாளரின் அன்றாட வழக்கத்தின் அடிப்படையில் ஆராய்ச்சியாளர்கள் ஆறு முக்கியமான பணிகளை வரையறுத்தனர்; உதாரணமாக, ஒரு மத்திய வங்கி ஆவணம் வட்டி விகித மாற்றத்தைக் குறிக்கிறதா அல்லது ஒரு செய்தித் தலைப்பு ஒரு குறிப்பிட்ட நிர்வாகிக்குத் தொடர்புடையதா என்பதைக் கண்டறிதல்.

இந்தச் சோதனைகளில், Gemini, Claude மற்றும் GPT வகைகளைப் போன்ற முன்னணி மாதிரிகள் அடிப்படைத் தூண்டுதல்களைப் (basic prompting) பயன்படுத்தும்போது சுமார் 50% துல்லியத்தையே எட்டின. ஆராய்ச்சியாளர்கள் நிபுணர்களால் எழுதப்பட்ட அறிவுறுத்தல்கள் மற்றும் ஒரு சிக்கலான மூன்று அடுக்கு மதிப்பீட்டு முறையைப் பயன்படுத்தியபோது கூட—தகவல்களை "தொடர்புடையது மற்றும் சுவாரஸ்யமானது", "தொடர்புடையது ஆனால் சுவாரஸ்யமற்றது" அல்லது "தொடர்பற்றது" என வகைப்படுத்தியபோதும்—துல்லியம் 70-களின் நடுப்பகுதிக்கு மட்டுமே உயர்ந்தது. இது ஒரு ஹெட்ஜ் ஃபண்ட் (hedge fund) சூழலில் நம்பகமான, தானியங்கி பயன்பாட்டிற்குத் தேவையான 80% துல்லியத் வரம்பை விடக் குறைவாகவே இருந்தது.

Open-Weight மாதிரிகளைத் துல்லியப்படுத்துதல் (Fine-Tuning): ஒரு செயல்திறன் முன்னேற்றம்

தொழில்முறைத் தரத்திலான AI-க்கான வழிமுறை என்பது எப்போதும் பெரிய மற்றும் அதிக விலை கொண்ட உரிமம் பெற்ற (proprietary) மாதிரிகள் மூலம் அல்ல, மாறாக உரிமம் பெற்ற நிபுணத்துவத்தைக் கொண்டு open-weight மாதிரிகளைத் துல்லியப்படுத்துவதன் (fine-tuning) மூலம் என்பதை இந்த ஆய்வு நிரூபிக்கிறது. முன்னாள் OpenAI CTO Mira Murati என்பவரால் நிறுவப்பட்ட Thinking Machines Lab, தனது Tinker தளத்தைப் பயன்படுத்தி Qwen3-235B அடிப்படையிலான ஒரு மாதிரியைப் பயிற்றுவித்தது.

இதன் முடிவுகள் வியக்கத்தக்கவை. துல்லியப்படுத்தப்பட்ட மாதிரி 84.7% துல்லியத்தை எட்டியது, இது சோதிக்கப்பட்ட சிறந்த முன்னணி மாதிரியை (78.2%) விடச் சிறப்பாகச் செயல்பட்டது; அதே சமயம் இதை இயக்குவதற்கான செலவு கிட்டத்தட்ட 14 மடங்கு குறைவாக இருந்தது. இது ஒரு முக்கியமான பொருளாதார யதார்த்தத்தை எடுத்துக்காட்டுகிறது: GPT-5.4 போன்ற புதிய மற்றும் பெரிய மாதிரிகள், துல்லியத்தில் மிகச் சிறிய முன்னேற்றத்திற்காகவே மிக அதிகச் செலவைச் செய்கின்றன, இதனால் அவற்றின் பலன் குறைந்து கொண்டே வருகிறது (diminishing returns).

உரிமம் பெற்ற தரவு மற்றும் மனித பின்னூட்டத்தின் வலிமை

இந்த வளர்ச்சியின் முக்கிய தொழில்நுட்பக் கண்டுபிடிப்பு, மனித நிபுணத்துவத்தை எவ்வாறு விரிவுபடுத்துவது என்பதற்கான வழிமுறையாகும். விலையுயர்ந்த முதலீட்டாளர்களை ஒவ்வொரு ஆவணத்தையும் வகைப்படுத்தச் செய்வதற்குப் பதிலாக, குழு ஒரு புத்திசாலித்தனமான "முரண்பாடு" (disagreement) சுழற்சியைப் பயன்படுத்தியது. முதலில் ஒரு மாதிரி ஆரம்பக்கட்ட லேபிள்களிலிருந்து கற்றுக்கொண்டது; மாதிரியின் மதிப்பீடு அசல் லேபிளுடன் முரண்பட்டபோது, அந்த குறிப்பிட்ட வழக்கு மனித ஆய்விற்காகக் குறிக்கப்பட்டது. இது முதலீட்டாளர்களின் மதிப்புமிக்க நேரம் உண்மையான பிழைகளைத் திருத்துவதற்கு மட்டுமே செலவிடப்படுவதை உறுதி செய்ததுடன், துல்லியப்படுத்துதலுக்கான உயர்தரத் தரவுத்தொகுப்பையும் (dataset) உருவாக்கியது.

இந்த அணுகுமுறை "தரவு அகழி" (data moat) சிக்கலைத் தீர்க்கிறது. பெரிய ஆய்வகங்கள் பொது இணையத்திலிருந்து பெரும்பகுதியைத் திரட்டியிருந்தாலும், நிதித் துறை நிபுணர்களின் மனதில் உள்ள தனிப்பட்ட மற்றும் நுணுக்கமான முடிவெடுக்கும் திறனைப் பெறுவதில் அவற்றுக்குத் தடைகள் உள்ளன. Open-weight மாதிரிகளைப் பயன்படுத்துவதன் மூலம், நிறுவனங்கள் தங்களின் உரிமம் பெற்ற தரவு, அவற்றின் எடைகள் (weights) மற்றும் போட்டித் திறன்களைத் தங்களுக்குள்ளேயே முழுமையாக வைத்திருக்க முடியும்.

முக்கியக் கருத்துக்கள்

முன்னணி மாதிரிகளின் வரம்புகள்: பொதுவான பயன்பாட்டிற்கான LLM-கள் சிறப்பு நிதித் தரம் பிரித்தலில் சிரமப்படுகின்றன, மேலும் பெரும்பாலும் தொழில்முறை பயன்பாட்டிற்குத் தேவையான 80% துல்லியத் வரம்பை எட்டத் தவறிவிடுகின்றன.
Open-Weight மாதிரிகள் மூலம் செயல்திறன்: Qwen3-235B அடிப்படையிலான மாதிரிகள் போன்ற துல்லியப்படுத்தப்பட்ட மாதிரிகள், உரிமம் பெற்ற பெரிய நிறுவனங்களின் மாதிரிகளை விட மிகக் குறைந்த செயல்பாட்டுச் செலவில் சிறந்த செயல்திறனை வழங்க முடியும்.
தனியார் தரவின் மதிப்பு: மிக முக்கியமான AI முன்னேற்றங்கள் இப்போது உரிமம் பெற்ற, "திரட்டப்படாத" (un-scraped) நிறுவனத் தரவுகள் மற்றும் மனித நிபுணர்களின் சிறப்பு முடிவெடுக்கும் திறனில் உள்ளன.

அதிநவீன AI மாதிரிகள் ஏன் நிதி முன்னுரிமைத் தீர்மானிக்கும் சோதனைகளில் தோல்வியடைகின்றன?

ஏன் முன்னணி AI மாதிரிகள் நிதித் தரம் பிரித்தல் (Financial Triage) சோதனைகளில் தோல்வியடைகின்றன

பொது அறிவுக்கும் நிதி சார்ந்த முடிவெடுத்தலுக்கும் இடையிலான இடைவெளி

Open-Weight மாதிரிகளைத் துல்லியப்படுத்துதல் (Fine-Tuning): ஒரு செயல்திறன் முன்னேற்றம்

உரிமம் பெற்ற தரவு மற்றும் மனித பின்னூட்டத்தின் வலிமை

முக்கியக் கருத்துக்கள்

Continue reading

AI முடிவெடுக்கும் திறனுக்கு மாற்றாகாது

புதிய AA Briefcase பெஞ்ச்மார்க், உண்மையான அறிவுசார் பணிகளில் AI சந்திக்கும் சவால்களை வெளிப்படுத்துகிறது

AI மாடல்களை ஃபைன்-டியூன் செய்வது இனி ML பொறியாளர்களுக்கு மட்டுமே உரியது அல்ல

மென்பொருள் பெஞ்ச்மார்க்குகளில் OpenAI-ன் GPT 5.6 Sol முறைகேடு செய்ததாகக் கண்டறியப்பட்டது

ஏன் நிலையான AI அளவுகோல்கள் ஏஜென்ட் திறன்களை முறையாகக் குறைத்து மதிப்பிடுகின்றன?