Frontier-Quality Coding tegen de kosten van het goedkope segment
Je kunt coding-scores van frontier-kwaliteit behalen tegen een fractie van de kosten.
We hebben een systeem gebouwd dat voor de meeste taken een goedkoop lokaal model gebruikt. Alleen moeilijke problemen worden naar een frontier model gestuurd. Deze methode werkt dankzij de structuur, niet alleen door de omvang van het model.
Hoe de architectuur werkt:
- Twee kanalen: een capaciteitskanaal (het goedkope lokale model) en een structuurkanaal (verificatiepoorten).
- Verificatie: Guards bepalen of een antwoord betrouwbaar is.
- Escalatie: Als de guards falen, verplaatst het systeem het verzoek naar een frontier model.
- Cache: Een cache-laag voorkomt het opnieuw oplossen van exacte duplicaten.
De resultaten van onze HumanEval+ tests:
- Volledige cascade-score: 94,5% plus correctheid.
- Score van het lokale model alleen: 84,8% plus correctheid.
- Het structuurkanaal voegt ongeveer 10 punten nauwkeurigheid toe.
We hebben het belang van de structuur getest via een ablation study:
- Volledig systeem: 100% correct.
- Verificatie verwijderd: 75% correct.
- Guards verwijderd: 50% correct.
De correctheid daalt met de helft wanneer je de guards verwijdert. Dit bewijst dat de structuur de betrouwbaarheid waarborgt.
De kostenvoordelen:
- Gemengde kosten: $0,00201 per verzoek.
- Frontier-kosten: $0,017 per verzoek.
- Ons systeem is ongeveer 8x goedkoper dan het gebruik van een frontier model voor elk verzoek.
- 91% van de verzoeken wordt afgehandeld door het lokale model.
Een opmerking over lange context:
Onze compaction-laag gebruikt 165 tokens vergeleken met 28.000 tokens voor ruwe context. Dit is een enorme toename in efficiëntie. We bereikten een infrastructuurlimiet bij 208k tokens, maar dit is een instelling en geen modeldefect.
Wat we nog niet hebben bewezen:
We hebben nog geen officiële benchmark-cijfers voor long-horizon prestaties. We hebben de runners voor RULER en SWE-bench gebouwd, maar we hebben deze nog niet in een schone sandbox gedraaid. We claimen nog geen officiële resultaten voor long-horizon prestaties.
Samenvatting van onze claim:
Ons systeem evenaart coding-scores van frontier-kwaliteit terwijl het goedkope lokale modellen gebruikt. Dit verlaagt de kosten met een factor 8. De betrouwbaarheid komt voort uit ons structuurkanaal.
Optionele leercommunity: https://t.me/GyaanSetuAi
