Uandishi wa Kodi wa Ubora wa Hali ya Juu kwa Gharama Nafuu
Unaweza kupata alama za uandishi wa kodi za hali ya juu kwa sehemu ndogo sana ya gharama.
Tulijenga mfumo unaotumia modeli ya ndani (local model) ya bei nafuu kwa kazi nyingi. Hutuma matatizo magumu tu kwa modeli ya hali ya juu (frontier model). Njia hii inafanya kazi kutokana na muundo, si tu ukubwa wa modeli.
Jinsi usanifu unavyofanya kazi:
- Njia mbili: Njia ya uwezo (modeli ya ndani ya bei nafuu) na njia ya muundo (vizingiti vya uhakiki).
- Uhakiki: Walinzi (guards) huamua ikiwa jibu linaaminika.
- Uongezaji ngazi (Escalation): Ikiwa walinzi watashindwa, mfumo huhamishia ombi kwa modeli ya hali ya juu.
- Cache: Tabaka la cache huzuia kutatua tena maswali yale yale yaliyojirudia.
Matokeo kutoka kwa majaribio yetu ya HumanEval+:
- Alama ya mfululizo kamili (Full cascade score): 94.5% pamoja na usahihi.
- Alama ya modeli ya ndani pekee: 84.8% pamoja na usahihi.
- Njia ya muundo huongeza takriban alama 10 za usahihi.
Tulijaribu umuhimu wa muundo kupitia utafiti wa ablation (ablation study):
- Mfumo kamili: 100% sahihi.
- Uhakiki ukiotolewa: 75% sahihi.
- Walinzi wakiotolewa: 50% sahihi.
Usahihi hupungua kwa nusu unapoondoa walinzi. Hii inathibitisha kuwa muundo ndio unaobeba uaminifu.
Faida za gharama:
- Gharama mchanganyiko: $0.00201 kwa kila ombi.
- Gharama ya modeli ya hali ya juu: $0.017 kwa kila ombi.
- Mfumo wetu ni rahisi zaidi kwa takriban mara 8 kuliko kutumia modeli ya hali ya juu kwa kila ombi.
- 91% ya maombi yanashughulikiwa na modeli ya ndani.
Zingatia kuhusu muktadha mrefu (long context):
Tabaka letu la ufupishaji (compaction layer) linatumia tokeni 165 ikilinganishwa na tokeni 28,000 kwa muktadha ghafi. Hii ni ongezeko kubwa la ufanisi. Tulifikia kikomo cha miundombinu kwenye tokeni 208k, lakini hii ni mipangilio, siyo hitilafu ya modeli.
Kile ambacho bado hatujathibitisha:
Hatuna namba rasmi za vipimo vya muda mrefu (long-horizon benchmark). Tumetengeneza programu za kuendesha RULER na SWE-bench, lakini hatujazitumia katika mazingira safi ya sandbox. Hatudai matokeo rasmi ya utendaji wa muda mrefu bado.
Muhtasari wa dai letu:
Mfumo wetu unaendana na alama za uandishi wa kodi za hali ya juu huku ukitumia modeli za ndani za bei nafuu. Hii inapunguza gharama kwa mara 8. Uaminifu unatokana na njia yetu ya muundo.
Jumuia ya kujifunza ya hiari: https://t.me/GyaanSetuAi
