सस्ते स्तर की लागत पर फ्रंटियर-क्वालिटी कोडिंग
आप बहुत कम लागत पर फ्रंटियर-क्वालिटी कोडिंग स्कोर प्राप्त कर सकते हैं।
हमने एक ऐसा सिस्टम बनाया है जो अधिकांश कार्यों के लिए एक सस्ते लोकल मॉडल का उपयोग करता है। यह केवल कठिन समस्याओं को ही फ्रंटियर मॉडल के पास भेजता है। यह तरीका केवल मॉडल के आकार के कारण नहीं, बल्कि इसकी संरचना (structure) के कारण काम करता है।
आर्किटेक्चर कैसे काम करता है:
- दो चैनल: एक कैपेबिलिटी चैनल (सस्ता लोकल मॉडल) और एक स्ट्रक्चर चैनल (वेरिफिकेशन गेट्स)।
- वेरिफिकेशन: गार्ड्स यह तय करते हैं कि क्या कोई उत्तर भरोसेमंद है।
- एस्केलेशन: यदि गार्ड्स विफल हो जाते हैं, तो सिस्टम अनुरोध को फ्रंटियर मॉडल पर भेज देता है।
- कैश: एक कैश लेयर बिल्कुल एक जैसे दोहराए गए कार्यों को दोबारा हल करने से रोकती है।
हमारे HumanEval+ परीक्षणों के परिणाम:
- फुल कैस्केड स्कोर: 94.5% प्लस करेक्टनेस।
- लोकल मॉडल सोलो स्कोर: 84.8% प्लस करेक्टनेस।
- स्ट्रक्चर चैनल सटीकता में लगभग 10 अंक जोड़ता है।
हमने एक एब्लेशन स्टडी (ablation study) के माध्यम से संरचना के महत्व का परीक्षण किया:
- पूरा सिस्टम: 100% सही।
- वेरिफिकेशन हटाने पर: 75% सही।
- गार्ड्स हटाने पर: 50% सही।
गार्ड्स हटाने पर सटीकता आधी रह जाती है। यह साबित करता है कि विश्वसनीयता संरचना (structure) के कारण आती है।
लागत के लाभ:
- मिश्रित लागत (Blended cost): $0.00201 प्रति अनुरोध।
- फ्रंटियर लागत: $0.017 प्रति अनुरोध।
- हमारा सिस्टम हर अनुरोध के लिए फ्रंटियर मॉडल का उपयोग करने की तुलना में लगभग 8 गुना सस्ता है।
- 91% अनुरोधों को लोकल मॉडल द्वारा पूरा किया जाता है।
लॉन्ग कॉन्टेक्स्ट (long context) पर एक नोट:
हमारा कॉम्पेक्शन लेयर (compaction layer) रॉ कॉन्टेक्स्ट के 28,000 टोकन की तुलना में केवल 165 टोकन का उपयोग करता है। यह दक्षता (efficiency) में एक बहुत बड़ी वृद्धि है। हम 208k टोकन पर एक इंफ्रास्ट्रक्चर सीमा तक पहुँच गए, लेकिन यह एक सेटिंग है, मॉडल की विफलता नहीं।
हमने अभी तक क्या साबित नहीं किया है:
हमारे पास आधिकारिक लॉन्ग-होरिजन बेंचमार्क (long-horizon benchmark) नंबर नहीं हैं। हमने RULER और SWE-bench के लिए रनर्स बनाए हैं, लेकिन हमने उन्हें क्लीन सैंडबॉक्स में नहीं चलाया है। हम अभी लॉन्ग-होरिजन प्रदर्शन के लिए आधिकारिक परिणामों का दावा नहीं कर रहे हैं।
हमारे दावे का सारांश:
हमारा सिस्टम सस्ते लोकल मॉडल का उपयोग करते हुए फ्रंटियर कोडिंग स्कोर के बराबर परिणाम देता है। यह लागत को 8 गुना कम कर देता है। विश्वसनीयता हमारे स्ट्रक्चर चैनल से आती है।
वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi
