Uandishi wa Kodi wa Ubora wa Hali ya Juu kwa Gharama Nafuu

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialsiku 6 zilizopita2min read

Uandishi wa Kodi wa Ubora wa Hali ya Juu kwa Gharama Nafuu

Unaweza kupata alama za uandishi wa kodi za hali ya juu kwa sehemu ndogo sana ya gharama.

Tulijenga mfumo unaotumia modeli ya ndani (local model) ya bei nafuu kwa kazi nyingi. Hutuma matatizo magumu tu kwa modeli ya hali ya juu (frontier model). Njia hii inafanya kazi kutokana na muundo, si tu ukubwa wa modeli.

Jinsi usanifu unavyofanya kazi:

Njia mbili: Njia ya uwezo (modeli ya ndani ya bei nafuu) na njia ya muundo (vizingiti vya uhakiki).
Uhakiki: Walinzi (guards) huamua ikiwa jibu linaaminika.
Uongezaji ngazi (Escalation): Ikiwa walinzi watashindwa, mfumo huhamishia ombi kwa modeli ya hali ya juu.
Cache: Tabaka la cache huzuia kutatua tena maswali yale yale yaliyojirudia.

Matokeo kutoka kwa majaribio yetu ya HumanEval+:

Alama ya mfululizo kamili (Full cascade score): 94.5% pamoja na usahihi.
Alama ya modeli ya ndani pekee: 84.8% pamoja na usahihi.
Njia ya muundo huongeza takriban alama 10 za usahihi.

Tulijaribu umuhimu wa muundo kupitia utafiti wa ablation (ablation study):

Mfumo kamili: 100% sahihi.
Uhakiki ukiotolewa: 75% sahihi.
Walinzi wakiotolewa: 50% sahihi.

Usahihi hupungua kwa nusu unapoondoa walinzi. Hii inathibitisha kuwa muundo ndio unaobeba uaminifu.

Faida za gharama:

Gharama mchanganyiko: $0.00201 kwa kila ombi.
Gharama ya modeli ya hali ya juu: $0.017 kwa kila ombi.
Mfumo wetu ni rahisi zaidi kwa takriban mara 8 kuliko kutumia modeli ya hali ya juu kwa kila ombi.
91% ya maombi yanashughulikiwa na modeli ya ndani.

Zingatia kuhusu muktadha mrefu (long context):

Tabaka letu la ufupishaji (compaction layer) linatumia tokeni 165 ikilinganishwa na tokeni 28,000 kwa muktadha ghafi. Hii ni ongezeko kubwa la ufanisi. Tulifikia kikomo cha miundombinu kwenye tokeni 208k, lakini hii ni mipangilio, siyo hitilafu ya modeli.

Kile ambacho bado hatujathibitisha:

Hatuna namba rasmi za vipimo vya muda mrefu (long-horizon benchmark). Tumetengeneza programu za kuendesha RULER na SWE-bench, lakini hatujazitumia katika mazingira safi ya sandbox. Hatudai matokeo rasmi ya utendaji wa muda mrefu bado.

Muhtasari wa dai letu:

Mfumo wetu unaendana na alama za uandishi wa kodi za hali ya juu huku ukitumia modeli za ndani za bei nafuu. Hii inapunguza gharama kwa mara 8. Uaminifu unatokana na njia yetu ya muundo.

Chanzo: https://dev.to/tom_jones_230c4659491adcd/frontier-quality-coding-at-cheap-tier-cost-what-we-built-and-how-we-measured-it-3g2j

Jumuia ya kujifunza ya hiari: https://t.me/GyaanSetuAi

Uandishi wa Kodi wa Ubora wa Hali ya Juu kwa Gharama Nafuu

Uandishi wa Kodi wa Ubora wa Hali ya Juu kwa Gharama Nafuu

Continue reading

𝗔𝗴𝗲𝗻𝘁 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲 𝗜𝘀 𝗔 𝗖𝗼𝗺𝗽𝘂𝘁𝗲 𝗔𝗹𝗹𝗼𝗰𝗮𝘁𝗶𝗼𝗻 𝗣𝗿𝗼𝗯𝗹𝗲𝗺

𝗧𝗶𝗲𝗿𝗲𝗱 𝗔𝗜 𝗖𝗼𝗱𝗲 𝗥𝗲𝘃𝗶𝗲𝘄: 𝗔 𝗙𝗿𝗮𝗺𝗲𝘄𝗼𝗿𝗸 𝗳𝗼𝗿 𝗔𝗜 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗲𝗱 𝗣𝗥𝘀

Gharama ya Uhakiki Ndiyo Gharama Halisi ya Uandishi wa Kodi wa AI

Ngazi ya Uhakiki kwa ajili ya Mifumo ya Uandishi wa Kodi ya AI ya Gharama Nafuu