सस्ते स्तर की लागत पर फ्रंटियर-क्वालिटी कोडिंग

आप बहुत कम लागत पर फ्रंटियर-क्वालिटी कोडिंग स्कोर प्राप्त कर सकते हैं।

हमने एक ऐसा सिस्टम बनाया है जो अधिकांश कार्यों के लिए एक सस्ते लोकल मॉडल का उपयोग करता है। यह केवल कठिन समस्याओं को ही फ्रंटियर मॉडल के पास भेजता है। यह तरीका केवल मॉडल के आकार के कारण नहीं, बल्कि इसकी संरचना (structure) के कारण काम करता है।

आर्किटेक्चर कैसे काम करता है:

  • दो चैनल: एक कैपेबिलिटी चैनल (सस्ता लोकल मॉडल) और एक स्ट्रक्चर चैनल (वेरिफिकेशन गेट्स)।
  • वेरिफिकेशन: गार्ड्स यह तय करते हैं कि क्या कोई उत्तर भरोसेमंद है।
  • एस्केलेशन: यदि गार्ड्स विफल हो जाते हैं, तो सिस्टम अनुरोध को फ्रंटियर मॉडल पर भेज देता है।
  • कैश: एक कैश लेयर बिल्कुल एक जैसे दोहराए गए कार्यों को दोबारा हल करने से रोकती है।

हमारे HumanEval+ परीक्षणों के परिणाम:

  • फुल कैस्केड स्कोर: 94.5% प्लस करेक्टनेस।
  • लोकल मॉडल सोलो स्कोर: 84.8% प्लस करेक्टनेस।
  • स्ट्रक्चर चैनल सटीकता में लगभग 10 अंक जोड़ता है।

हमने एक एब्लेशन स्टडी (ablation study) के माध्यम से संरचना के महत्व का परीक्षण किया:

  • पूरा सिस्टम: 100% सही।
  • वेरिफिकेशन हटाने पर: 75% सही।
  • गार्ड्स हटाने पर: 50% सही।

गार्ड्स हटाने पर सटीकता आधी रह जाती है। यह साबित करता है कि विश्वसनीयता संरचना (structure) के कारण आती है।

लागत के लाभ:

  • मिश्रित लागत (Blended cost): $0.00201 प्रति अनुरोध।
  • फ्रंटियर लागत: $0.017 प्रति अनुरोध।
  • हमारा सिस्टम हर अनुरोध के लिए फ्रंटियर मॉडल का उपयोग करने की तुलना में लगभग 8 गुना सस्ता है।
  • 91% अनुरोधों को लोकल मॉडल द्वारा पूरा किया जाता है।

लॉन्ग कॉन्टेक्स्ट (long context) पर एक नोट:

हमारा कॉम्पेक्शन लेयर (compaction layer) रॉ कॉन्टेक्स्ट के 28,000 टोकन की तुलना में केवल 165 टोकन का उपयोग करता है। यह दक्षता (efficiency) में एक बहुत बड़ी वृद्धि है। हम 208k टोकन पर एक इंफ्रास्ट्रक्चर सीमा तक पहुँच गए, लेकिन यह एक सेटिंग है, मॉडल की विफलता नहीं।

हमने अभी तक क्या साबित नहीं किया है:

हमारे पास आधिकारिक लॉन्ग-होरिजन बेंचमार्क (long-horizon benchmark) नंबर नहीं हैं। हमने RULER और SWE-bench के लिए रनर्स बनाए हैं, लेकिन हमने उन्हें क्लीन सैंडबॉक्स में नहीं चलाया है। हम अभी लॉन्ग-होरिजन प्रदर्शन के लिए आधिकारिक परिणामों का दावा नहीं कर रहे हैं।

हमारे दावे का सारांश:

हमारा सिस्टम सस्ते लोकल मॉडल का उपयोग करते हुए फ्रंटियर कोडिंग स्कोर के बराबर परिणाम देता है। यह लागत को 8 गुना कम कर देता है। विश्वसनीयता हमारे स्ट्रक्चर चैनल से आती है।

स्रोत: https://dev.to/tom_jones_230c4659491adcd/frontier-quality-coding-at-cheap-tier-cost-what-we-built-and-how-we-measured-it-3g2j

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi