SkillOpt ya Microsoft Inaimarisha Utendaji wa GPT-5.5 Kupitia Uboreshaji wa Markdown
Microsoft na watafiti kutoka vyuo vikuu vitatu vya China wamezindua SkillOpt, mbinu ya kimapinduzi inayochukulia faili za maelekezo za Markdown kama vigezo vinavyoweza kufundishwa (trainable parameters). Kwa kuboresha hati hizi za "ujuzi" (skill), watafiti walipata ongezeko kubwa la alama 23 katika utendaji wa GPT-5.5 kwenye kazi za taratibu (procedural tasks).
Kuchukulia Maandishi kama Uzito Unaoweza Kufundishwa (Trainable Weights)
Katika mazingira ya sasa ya AI, "ujuzi" (skills)—maelekezo ya moduli yanayowaongoza mawakala (agents) kupitia taratibu maalum, sheria za matumizi ya zana, na mifumo ya matokeo—yanakuwa viwango vya tasnia. Wakati kampuni kama Anthropic zinatumia hizi kuboresha Claude, hati hizi kwa kawaida huandikwa na binadamu au kuzalishwa mara moja na LLM. Hakuna njia yoyote inayofanya kazi kama kiongeza ufanisi (optimizer) halisi.
SkillOpt inabadilisha mfumo huu kwa kuchukulia faili ya Markdown kama hali ya nje inayoweza kufundishwa (trainable state) kwa ajili ya modeli lengwa iliyoganda (frozen target model). Badala ya kusasisha uzito (weights) wa modeli, modeli ya lugha ya "optimizer" ya pili inachambua kumbukumbu za utekelezaji (execution logs) ili kutambua makosa na mafanikio yanayojirudia. Optimizer hii inapendekeza marekebisho mahususi (surgical edits)—kuongeza, kufuta, au kubadilisha vifungu maalum—ndani ya hati ya Markdown. Muhimu zaidi, mabadiliko haya yakubaliwa tu ikiwa yataleta maboresho yanayopimika kwenye seti ya uhakiki iliyotengwa (held-out validation set).
Dhana za Deep Learning Zinazotumika kwenye Maandishi
Ubunifu wa SkillOpt upo katika jinsi unavyounganisha mifumo ya kawaida ya deep learning kwenye uboreshaji wa kiwango cha maandishi. Watafiti walitekeleza mifumo kadhaa ya udhibiti ya hali ya juu ili kuhakikisha utulivu:
- Learning Rate na Schedulers: Learning rate huweka kikomo cha idadi ya marekebisho yanayoruhusiwa kwa kila hatua, wakati scheduler hupunguza ukubwa wa marekebisho katika epochs za mafunzo ili kuzuia mabadiliko ya ghafla (volatility).
- Negative Feedback Buffers: Marekebisho yaliyokataliwa huhifadhiwa kwenye buffer, yakitumika kama mifano hasi inayozuia optimizer kurudia makosa yaleyale.
- Gradient Smoothing: Mfumo wa "slow update" mwishoni mwa kila epoch unahifadhi mwelekeo thabiti wa marekebisho, ukifananisha jinsi gradient smoothing inavyotuliza mafunzo ya mitandao ya neva (neural network) ya kawaida.
Mgawanyo huu wa majukumu unamaanisha kuwa kazi nzito hufanyika wakati wa mafunzo. Wakati wa utambuzi (inference time), modeli lengwa inabaki kuwa nyepesi, ikipokea tu faili ndogo ya Markdown yenye tokeni 300 hadi 2,000 kama muktadha.
Utawala wa Benchmark na Uwezo wa Kuhamisha Kati ya Modeli (Cross-Model Transferability)
Matokeo ya kishahidi ni muhimu sana. Kupitia majaribio katika viwango sita vya utendaji (benchmarks)—ikiwemo utafutaji, hisabati, spreadsheets, na vitendo vya mwili (embodied action)—SkillOpt ilifanya vizuri zaidi kuliko ujuzi uliandikwa kwa mkono na mbinu maalum kama TextGrad na EvoSkill. Katika GPT-5.5 kupitia mazungumzo ya moja kwa moja, mbinu hiyo ilileta ongezeko la wastani la utendaji la takriban pointi 23.
Moja ya matokeo yenye athari kubwa ni uwezo wa mbinu hiyo kuhamishwa (transferability). Ujuzi ulioboreshwa kwa ajili ya modeli kubwa kama GPT-5.5 unaweza kutumika kwenye modeli ndogo zaidi, kama Qwen3.5-4B, na hivyo kuwapa maarifa ya utaratibu (procedural knowledge) ambayo hayapo katika uzito wao wa asili (native weights). Zaidi ya hayo, ujuzi huo haategemei mazingira; ujuzi wa spreadsheet uliopata mafunzo katika mzunguko wa Codex unafanya kazi vizuri katika Claude Code bila kuhitaji mafunzo upya.
Kwa mfano, katika kazi za spreadsheet, ujuzi ulioboreshwa unajifunza kukagua miundo ya worksheet kwanza na kuandika thamani zilizopimwa moja kwa moja badala ya kutegemea fomula. Katika kazi za AI ya mwili (embodied AI) kama ALFWorld, ujuzi huo unajifunza kuweka kumbukumbu ya maeneo yaliyotembelewa ili kuhakikisha malengo yanatimizwa kwa mpangilio sahihi.
Mambo Muhimu ya Kuzingatia
- Uboreshaji Unaozingatia Maandishi: SkillOpt inachukulia faili za maelekezo za Markdown kama hali zinazoweza kufundishwa (trainable states), ikitumia LLM ya pili kuziboresha kama zilivyo uzito wa modeli (model weights).
- Ongezeko Kubwa la Utendaji: Mbinu hii iliongeza utendaji wa GPT-5.5 kwa wastani wa pointi 23 kwenye viwango vya utaratibu (procedural benchmarks), ikifanya vizuri zaidi hasa katika matumizi ya zana na kazi za uwekaji mpangilio mkali (strict formatting).
- Ufanisi na Uwezo wa Kuhamishwa: Ujuzi ulioboreshwa ni mdogo (chini ya tokeni 2,000) na unaweza kuhamishwa kutoka kwa modeli kubwa kwenda kwenye ndogo au kati ya mazingira tofauti ya wakala (agent environments).