மிகக் குறைந்த செலவில் அதிநவீன தரமான கோடிங்

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial6 நாட்களுக்கு முன்2min read

மிகக் குறைந்த செலவில் அதிநவீன தரமான கோடிங்

குறைந்த செலவில் அதிநவீனத் தரத்திலான கோடிங்

மிகக் குறைந்த செலவில் நீங்கள் அதிநவீனத் தரத்திலான கோடிங் மதிப்பெண்களைப் பெற முடியும்.

பெரும்பாலான பணிகளுக்கு ஒரு மலிவான உள்ளூர் மாதிரியைப் (local model) பயன்படுத்தும் ஒரு அமைப்பை நாங்கள் உருவாக்கியுள்ளோம். இது கடினமான சிக்கல்களை மட்டுமே ஒரு முன்னணித் தரத்திலான மாதிரிக்கு (frontier model) அனுப்புகிறது. இந்த முறை மாதிரியின் அளவை மட்டும் சார்ந்து இல்லாமல், அதன் கட்டமைப்பினால் (structure) சிறப்பாகச் செயல்படுகிறது.

கட்டமைப்பு எவ்வாறு செயல்படுகிறது:

இரண்டு சேனல்கள்: ஒரு திறன் சேனல் (capability channel - மலிவான உள்ளூர் மாதிரி) மற்றும் ஒரு கட்டமைப்பு சேனல் (structure channel - சரிபார்ப்பு வாயில்கள்/verification gates).
சரிபார்ப்பு: ஒரு பதில் நம்பகமானதா என்பதை 'கார்டுகள்' (Guards) தீர்மானிக்கின்றன.
அடுத்த கட்டத்திற்கு நகர்த்துதல் (Escalation): கார்டுகள் தோல்வியடைந்தால், அமைப்பு அந்த கோரிக்கையை ஒரு முன்னணித் தரத்திலான மாதிரிக்கு மாற்றுகிறது.
கேச் (Cache): ஒரு கேச் அடுக்கு, ஒரே மாதிரியான கேள்விகளை மீண்டும் மீண்டும் தீர்ப்பதைத் தடுக்கிறது.

எங்களது HumanEval+ சோதனைகளின் முடிவுகள்:

முழு கேஸ்கேட் மதிப்பெண் (Full cascade score): 94.5% மற்றும் துல்லியம்.
உள்ளூர் மாதிரி மட்டும் பெற்ற மதிப்பெண்: 84.8% மற்றும் துல்லியம்.
கட்டமைப்பு சேனல் தோராயமாக 10 புள்ளிகள் துல்லியத்தை அதிகரிக்கிறது.

ஒரு அப்லேஷன் ஆய்வின் (ablation study) மூலம் கட்டமைப்பின் முக்கியத்துவத்தை நாங்கள் சோதித்தோம்:

முழு அமைப்பு: 100% சரியானது.
சரிபார்ப்பு நீக்கப்பட்டால்: 75% சரியானது.
கார்டுகள் நீக்கப்பட்டால்: 50% சரியானது.

கார்டுகளை நீக்கும்போது துல்லியம் பாதியாகக் குறைகிறது. இது கட்டமைப்பே நம்பகத்தன்மையைக் கொண்டு செல்கிறது என்பதை நிரூபிக்கிறது.

செலவு நன்மைகள்:

கலப்புச் செலவு (Blended cost): ஒரு கோரிக்கைக்கு $0.00201.
முன்னணித் தரத்திலான மாதிரியின் செலவு: ஒரு கோரிக்கைக்கு $0.017.
ஒவ்வொரு கோரிக்கைக்கும் முன்னணித் தரத்திலான மாதிரியைப் பயன்படுத்துவதை விட எங்களது அமைப்பு சுமார் 8 மடங்கு மலிவானது.
91% கோரிக்கைகள் உள்ளூர் மாதிரியால் கையாளப்படுகின்றன.

நீண்ட சூழல் (long context) குறித்த குறிப்பு:

எங்களது கம்ப்ாக்சன் அடுக்கு (compaction layer), மூலச் சூழலுக்குத் (raw context) தேவைப்படும் 28,000 டோக்கன்களுக்குப் பதிலாக 165 டோக்கன்களை மட்டுமே பயன்படுத்துகிறது. இது செயல்திறனில் மிகப்பெரிய முன்னேற்றமாகும். நாங்கள் 208k டோக்கன்களில் உள்கட்டமைப்பு வரம்பைச் (infrastructure limit) சந்தித்தோம், ஆனால் இது ஒரு அமைப்பியல் (setting) சார்ந்த விஷயம், மாதிரியின் தோல்வி அல்ல.

நாங்கள் இன்னும் நிரூபிக்காதவை:

எங்களிடம் அதிகாரப்பூர்வமான long-horizon பெஞ்ச்மார்க் எண்கள் இல்லை. நாங்கள் RULER மற்றும் SWE-bench ஆகியவற்றிற்கான ரன்னர்களை (runners) உருவாக்கியுள்ளோம், ஆனால் அவற்றை ஒரு சுத்தமான சாண்ட்பாக்ஸில் (clean sandbox) இயக்கவில்லை. நீண்ட காலச் செயல்திறனுக்கான (long-horizon performance) அதிகாரப்பூர்வ முடிவுகளை நாங்கள் இன்னும் உரிமை கோரவில்லை.

எங்களது வாதத்தின் சுருக்கம்:

எங்களது அமைப்பு மலிவான உள்ளூர் மாதிரிகளைப் பயன்படுத்தும் போதே முன்னணித் தரத்திலான கோடிங் மதிப்பெண்களுக்கு இணையாகச் செயல்படுகிறது. இது செலவை 8 மடங்கு குறைக்கிறது. நம்பகத்தன்மை எங்களது கட்டமைப்பு சேனலில் இருந்து கிடைக்கிறது.

Source: https://dev.to/tom_jones_230c4659491adcd/frontier-quality-coding-at-cheap-tier-cost-what-we-built-and-how-we-measured-it-3g2j

Optional learning community: https://t.me/GyaanSetuAi

மிகக் குறைந்த செலவில் அதிநவீன தரமான கோடிங்

Continue reading

ஏஜென்ட் கட்டமைப்பு என்பது ஒரு கணினித் திறன் ஒதுக்கீடு சிக்கலாகும்

அடுக்குமுறை AI குறியீடு ஆய்வு: AI மூலம் உருவாக்கப்பட்ட PR-களுக்கான ஒரு கட்டமைப்பு

சரிபார்ப்புச் செலவே உண்மையான AI கோடிங் செலவு

A Verification Ladder for Low Cost AI Coding Models