कम लागत में अत्याधुनिक गुणवत्ता वाली कोडिंग

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorial6 दिन पहले2मिनट पढ़ें

कम लागत में अत्याधुनिक गुणवत्ता वाली कोडिंग

सस्ते स्तर की लागत पर फ्रंटियर-क्वालिटी कोडिंग

आप बहुत कम लागत पर फ्रंटियर-क्वालिटी कोडिंग स्कोर प्राप्त कर सकते हैं।

हमने एक ऐसा सिस्टम बनाया है जो अधिकांश कार्यों के लिए एक सस्ते लोकल मॉडल का उपयोग करता है। यह केवल कठिन समस्याओं को ही फ्रंटियर मॉडल के पास भेजता है। यह तरीका केवल मॉडल के आकार के कारण नहीं, बल्कि इसकी संरचना (structure) के कारण काम करता है।

आर्किटेक्चर कैसे काम करता है:

दो चैनल: एक कैपेबिलिटी चैनल (सस्ता लोकल मॉडल) और एक स्ट्रक्चर चैनल (वेरिफिकेशन गेट्स)।
वेरिफिकेशन: गार्ड्स यह तय करते हैं कि क्या कोई उत्तर भरोसेमंद है।
एस्केलेशन: यदि गार्ड्स विफल हो जाते हैं, तो सिस्टम अनुरोध को फ्रंटियर मॉडल पर भेज देता है।
कैश: एक कैश लेयर बिल्कुल एक जैसे दोहराए गए कार्यों को दोबारा हल करने से रोकती है।

हमारे HumanEval+ परीक्षणों के परिणाम:

फुल कैस्केड स्कोर: 94.5% प्लस करेक्टनेस।
लोकल मॉडल सोलो स्कोर: 84.8% प्लस करेक्टनेस।
स्ट्रक्चर चैनल सटीकता में लगभग 10 अंक जोड़ता है।

हमने एक एब्लेशन स्टडी (ablation study) के माध्यम से संरचना के महत्व का परीक्षण किया:

पूरा सिस्टम: 100% सही।
वेरिफिकेशन हटाने पर: 75% सही।
गार्ड्स हटाने पर: 50% सही।

गार्ड्स हटाने पर सटीकता आधी रह जाती है। यह साबित करता है कि विश्वसनीयता संरचना (structure) के कारण आती है।

लागत के लाभ:

मिश्रित लागत (Blended cost): $0.00201 प्रति अनुरोध।
फ्रंटियर लागत: $0.017 प्रति अनुरोध।
हमारा सिस्टम हर अनुरोध के लिए फ्रंटियर मॉडल का उपयोग करने की तुलना में लगभग 8 गुना सस्ता है।
91% अनुरोधों को लोकल मॉडल द्वारा पूरा किया जाता है।

लॉन्ग कॉन्टेक्स्ट (long context) पर एक नोट:

हमारा कॉम्पेक्शन लेयर (compaction layer) रॉ कॉन्टेक्स्ट के 28,000 टोकन की तुलना में केवल 165 टोकन का उपयोग करता है। यह दक्षता (efficiency) में एक बहुत बड़ी वृद्धि है। हम 208k टोकन पर एक इंफ्रास्ट्रक्चर सीमा तक पहुँच गए, लेकिन यह एक सेटिंग है, मॉडल की विफलता नहीं।

हमने अभी तक क्या साबित नहीं किया है:

हमारे पास आधिकारिक लॉन्ग-होरिजन बेंचमार्क (long-horizon benchmark) नंबर नहीं हैं। हमने RULER और SWE-bench के लिए रनर्स बनाए हैं, लेकिन हमने उन्हें क्लीन सैंडबॉक्स में नहीं चलाया है। हम अभी लॉन्ग-होरिजन प्रदर्शन के लिए आधिकारिक परिणामों का दावा नहीं कर रहे हैं।

हमारे दावे का सारांश:

हमारा सिस्टम सस्ते लोकल मॉडल का उपयोग करते हुए फ्रंटियर कोडिंग स्कोर के बराबर परिणाम देता है। यह लागत को 8 गुना कम कर देता है। विश्वसनीयता हमारे स्ट्रक्चर चैनल से आती है।

स्रोत: https://dev.to/tom_jones_230c4659491adcd/frontier-quality-coding-at-cheap-tier-cost-what-we-built-and-how-we-measured-it-3g2j

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

कम लागत में अत्याधुनिक गुणवत्ता वाली कोडिंग

सस्ते स्तर की लागत पर फ्रंटियर-क्वालिटी कोडिंग

पढ़ना जारी रखें

एजेंट आर्किटेक्चर एक कंप्यूट एलोकेशन समस्या है

टियर्ड एआई कोड रिव्यू: एआई द्वारा जनरेट किए गए PRs के लिए एक फ्रेमवर्क

सत्यापन की लागत ही वास्तविक AI कोडिंग लागत है

कम लागत वाले AI कोडिंग मॉडल्स के लिए एक वेरिफिकेशन लैडर