குறைந்த செலவில் அதிநவீனத் தரத்திலான கோடிங்

மிகக் குறைந்த செலவில் நீங்கள் அதிநவீனத் தரத்திலான கோடிங் மதிப்பெண்களைப் பெற முடியும்.

பெரும்பாலான பணிகளுக்கு ஒரு மலிவான உள்ளூர் மாதிரியைப் (local model) பயன்படுத்தும் ஒரு அமைப்பை நாங்கள் உருவாக்கியுள்ளோம். இது கடினமான சிக்கல்களை மட்டுமே ஒரு முன்னணித் தரத்திலான மாதிரிக்கு (frontier model) அனுப்புகிறது. இந்த முறை மாதிரியின் அளவை மட்டும் சார்ந்து இல்லாமல், அதன் கட்டமைப்பினால் (structure) சிறப்பாகச் செயல்படுகிறது.

கட்டமைப்பு எவ்வாறு செயல்படுகிறது:

  • இரண்டு சேனல்கள்: ஒரு திறன் சேனல் (capability channel - மலிவான உள்ளூர் மாதிரி) மற்றும் ஒரு கட்டமைப்பு சேனல் (structure channel - சரிபார்ப்பு வாயில்கள்/verification gates).
  • சரிபார்ப்பு: ஒரு பதில் நம்பகமானதா என்பதை 'கார்டுகள்' (Guards) தீர்மானிக்கின்றன.
  • அடுத்த கட்டத்திற்கு நகர்த்துதல் (Escalation): கார்டுகள் தோல்வியடைந்தால், அமைப்பு அந்த கோரிக்கையை ஒரு முன்னணித் தரத்திலான மாதிரிக்கு மாற்றுகிறது.
  • கேச் (Cache): ஒரு கேச் அடுக்கு, ஒரே மாதிரியான கேள்விகளை மீண்டும் மீண்டும் தீர்ப்பதைத் தடுக்கிறது.

எங்களது HumanEval+ சோதனைகளின் முடிவுகள்:

  • முழு கேஸ்கேட் மதிப்பெண் (Full cascade score): 94.5% மற்றும் துல்லியம்.
  • உள்ளூர் மாதிரி மட்டும் பெற்ற மதிப்பெண்: 84.8% மற்றும் துல்லியம்.
  • கட்டமைப்பு சேனல் தோராயமாக 10 புள்ளிகள் துல்லியத்தை அதிகரிக்கிறது.

ஒரு அப்லேஷன் ஆய்வின் (ablation study) மூலம் கட்டமைப்பின் முக்கியத்துவத்தை நாங்கள் சோதித்தோம்:

  • முழு அமைப்பு: 100% சரியானது.
  • சரிபார்ப்பு நீக்கப்பட்டால்: 75% சரியானது.
  • கார்டுகள் நீக்கப்பட்டால்: 50% சரியானது.

கார்டுகளை நீக்கும்போது துல்லியம் பாதியாகக் குறைகிறது. இது கட்டமைப்பே நம்பகத்தன்மையைக் கொண்டு செல்கிறது என்பதை நிரூபிக்கிறது.

செலவு நன்மைகள்:

  • கலப்புச் செலவு (Blended cost): ஒரு கோரிக்கைக்கு $0.00201.
  • முன்னணித் தரத்திலான மாதிரியின் செலவு: ஒரு கோரிக்கைக்கு $0.017.
  • ஒவ்வொரு கோரிக்கைக்கும் முன்னணித் தரத்திலான மாதிரியைப் பயன்படுத்துவதை விட எங்களது அமைப்பு சுமார் 8 மடங்கு மலிவானது.
  • 91% கோரிக்கைகள் உள்ளூர் மாதிரியால் கையாளப்படுகின்றன.

நீண்ட சூழல் (long context) குறித்த குறிப்பு:

எங்களது கம்ப்ாக்சன் அடுக்கு (compaction layer), மூலச் சூழலுக்குத் (raw context) தேவைப்படும் 28,000 டோக்கன்களுக்குப் பதிலாக 165 டோக்கன்களை மட்டுமே பயன்படுத்துகிறது. இது செயல்திறனில் மிகப்பெரிய முன்னேற்றமாகும். நாங்கள் 208k டோக்கன்களில் உள்கட்டமைப்பு வரம்பைச் (infrastructure limit) சந்தித்தோம், ஆனால் இது ஒரு அமைப்பியல் (setting) சார்ந்த விஷயம், மாதிரியின் தோல்வி அல்ல.

நாங்கள் இன்னும் நிரூபிக்காதவை:

எங்களிடம் அதிகாரப்பூர்வமான long-horizon பெஞ்ச்மார்க் எண்கள் இல்லை. நாங்கள் RULER மற்றும் SWE-bench ஆகியவற்றிற்கான ரன்னர்களை (runners) உருவாக்கியுள்ளோம், ஆனால் அவற்றை ஒரு சுத்தமான சாண்ட்பாக்ஸில் (clean sandbox) இயக்கவில்லை. நீண்ட காலச் செயல்திறனுக்கான (long-horizon performance) அதிகாரப்பூர்வ முடிவுகளை நாங்கள் இன்னும் உரிமை கோரவில்லை.

எங்களது வாதத்தின் சுருக்கம்:

எங்களது அமைப்பு மலிவான உள்ளூர் மாதிரிகளைப் பயன்படுத்தும் போதே முன்னணித் தரத்திலான கோடிங் மதிப்பெண்களுக்கு இணையாகச் செயல்படுகிறது. இது செலவை 8 மடங்கு குறைக்கிறது. நம்பகத்தன்மை எங்களது கட்டமைப்பு சேனலில் இருந்து கிடைக்கிறது.

Source: https://dev.to/tom_jones_230c4659491adcd/frontier-quality-coding-at-cheap-tier-cost-what-we-built-and-how-we-measured-it-3g2j

Optional learning community: https://t.me/GyaanSetuAi