Microsoft નું SkillOpt Markdown Optimization દ્વારા GPT-5.5 ના પ્રદર્શનમાં વધારો કરે છે
Microsoft અને ત્રણ ચીની યુનિવર્સિટીઓના સંશોધકોએ SkillOpt રજૂ કર્યું છે, જે એક ક્રાંતિકારી પદ્ધતિ છે જે સૂચનાત્મક Markdown ફાઇલોને ટ્રેનેબલ પેરામીટર્સ (trainable parameters) તરીકે ગણે છે. આ "skill" દસ્તાવેજોને ઓપ્ટિમાઇઝ કરીને, સંશોધકોએ પ્રક્રિયાગત કાર્યો (procedural tasks) પર GPT-5.5 માટે ૨૩-પોઇન્ટનો મોટો પ્રદર્શન ઉછાળો હાંસલ કર્યો છે.
ટેક્સ્ટને ટ્રેનેબલ વેઇટ્સ (Trainable Weights) તરીકે ગણવું
વર્તમાન AI ક્ષેત્રમાં, "skills"—મોડ્યુલર સૂચનાઓ જે એજન્ટોને ચોક્કસ પ્રક્રિયાઓ, ટૂલ-ઉપયોગના નિયમો અને આઉટપુટ ફોર્મેટ દ્વારા માર્ગદર્શન આપે છે—તે ઉદ્યોગના ધોરણો બની રહ્યા છે. Anthropic જેવી કંપનીઓ Claude ને સુધારવા માટે આનો ઉપયોગ કરે છે, પરંતુ પરંપરાગત રીતે આ દસ્તાવેજો માનવો દ્વારા લખવામાં આવે છે અથવા LLM દ્વારા સિંગલ પાસમાં જનરેટ કરવામાં આવે છે. આમાંથી કોઈ પણ પદ્ધતિ સાચા ઓપ્ટિમાઇઝર તરીકે કાર્ય કરતી નથી.
SkillOpt એક ફ્રોઝન ટાર્ગેટ મોડલ (frozen target model) માટે Markdown ફાઇલને બાહ્ય, ટ્રેનેબલ સ્ટેટ તરીકે ગણીને આ અભિગમ બદલે છે. મોડલના વેઇટ્સ અપડેટ કરવાને બદલે, બીજું એક "optimizer" લેંગ્વેજ મોડલ વારંવાર થતી ભૂલો અને સફળતાઓને ઓળખવા માટે એક્ઝિક્યુશન લોગ્સનું વિશ્લેષણ કરે છે. આ ઓપ્ટિમાઇઝર Markdown દસ્તાવેજમાં ચોક્કસ ફકરાઓ ઉમેરીને, કાઢીને અથવા બદલીને સચોટ સુધારા (surgical edits) સૂચવે છે. મહત્વનું એ છે કે, આ ફેરફારો ત્યારે જ સ્વીકારવામાં આવે છે જો તેઓ વેલિડેશન સેટ પર માપી શકાય તેવો સુધારો લાવે.
ગદ્ય (Prose) પર લાગુ કરાયેલ Deep Learning ના ખ્યાલો
SkillOpt ની ખાસિયત એ છે કે તે પરંપરાગત deep learning મિકેનિક્સને ટેક્સ્ટ-લેવલ ઓપ્ટિમાઇઝેશન સાથે કેવી રીતે જોડે છે. સંશોધકોએ સ્થિરતા સુનિશ્ચિત કરવા માટે કેટલાક અત્યાધુનિક કંટ્રોલ મિકેનિઝમ્સ અમલમાં મૂક્યા છે:
- Learning Rate અને Schedulers: લર્નિંગ રેટ દરેક સ્ટેપમાં મંજૂર એડિટ્સની સંખ્યા મર્યાદિત કરે છે, જ્યારે શેડ્યુલર અસ્થિરતા રોકવા માટે ટ્રેનિંગ ઇપોક્સ (epochs) દરમિયાન એડિટના કદને ઘટાડે છે.
- Negative Feedback Buffers: નકારવામાં આવેલા એડિટ્સને બફરમાં સંગ્રહિત કરવામાં આવે છે, જે નેગેટિવ ઉદાહરણ તરીકે કામ કરે છે અને ઓપ્ટિમાઇઝરને સમાન ભૂલોનું પુનરાવર્તન કરતા અટકાવે છે.
- Gradient Smoothing: દરેક ઇપોક (epoch) ના અંતે "slow update" મિકેનિઝમ સ્થિર એડિટ દિશાઓ જાળવી રાખે છે, જે પરંપરાગત ન્યુરલ નેટવર્ક ટ્રેનિંગને સ્ટેબિલાઇઝ કરવા માટે વપરાતા ગ્રેડિયન્ટ સ્મૂધિંગની નકલ કરે છે.
આ વિભાજનનો અર્થ એ છે કે મુખ્ય કામગીરી ટ્રેનિંગ દરમિયાન થાય છે. ઇન્ફરન્સ (inference) સમયે, ટાર્ગેટ મોડલ હળવું રહે છે, જે ફક્ત સંદર્ભ (context) તરીકે 300 થી 2,000 ટોકન્સની એક કોમ્પેક્ટ Markdown ફાઇલ મેળવે છે.
Benchmark પર પ્રભુત્વ અને Cross-Model Transferability
પ્રાયોગિક પરિણામો નોંધપાત્ર છે. સર્ચ, મેથ્સ, સ્પ્રેડશીટ્સ અને એમ્બોડીડ એક્શન સહિત છ બેન્ચમાર્ક પર પરીક્ષણ કરતા, SkillOpt એ સતત હેન્ડરિટન સ્કિલ્સ અને TextGrad તથા EvoSkill જેવી વિશિષ્ટ પદ્ધતિઓ કરતા વધુ સારું પ્રદર્શન કર્યું છે. ડાયરેક્ટ ચેટમાં GPT-5.5 પર, આ પદ્ધતિએ સરેરાશ પ્રદર્શનમાં અંદાજે 23 પોઈન્ટનો વધારો કર્યો છે.
સૌથી પ્રભાવશાળી તારણોમાંનું એક આ પદ્ધતિની ટ્રાન્સફરેબિલિટી છે. GPT-5.5 જેવા મોટા મોડેલ માટે ઓપ્ટિમાઇઝ કરેલી સ્કિલને Qwen3.5-4B જેવા ઘણા નાના મોડેલો પર લાગુ કરી શકાય છે, જે તેમને અસરકારક રીતે એવી પ્રક્રિયાગત જ્ઞાન પૂરી પાડે છે જે તેમના મૂળ વજન (native weights) માં ખૂટે છે. વધુમાં, સ્કિલ્સ એન્વાયરમેન્ટ-એગ્નોસ્ટિક છે; Codex લૂપમાં તાલીમ પામેલી સ્પ્રેડશીટ સ્કિલ ફરીથી તાલીમ આપ્યા વિના Claude Code માં સીમલેસ રીતે કામ કરે છે.
ઉદાહરણ તરીકે, સ્પ્રેડશીટ કાર્યોમાં, ઓપ્ટિમાઇઝ કરેલી સ્કિલ પહેલા વર્કશીટનું માળખું તપાસવાનું અને ફોર્મ્યુલા પર આધાર રાખવાને બદલે સીધા જ મૂલ્યાંકિત મૂલ્યો લખવાનું શીખે છે. ALFWorld જેવા એમ્બોડીડ AI કાર્યોમાં, સ્કિલ મુલાકાત લીધેલ સ્થળોનો લોગ રાખવાનું શીખે છે જેથી ખાતરી કરી શકાય કે ઉદ્દેશ્યો યોગ્ય ક્રમમાં પૂર્ણ થાય છે.
મુખ્ય તારણો
- ટેક્સ્ટ-આધારિત ઓપ્ટિમાઇઝેશન: SkillOpt માર્કડાઉન ઇન્સ્ટ્રક્શન ફાઇલોને ટ્રેનેબલ સ્ટેટ્સ તરીકે ગણે છે, અને મોડેલ વજનની જેમ જ તેમને ઓપ્ટિમાઇઝ કરવા માટે બીજા LLM નો ઉપયોગ કરે છે.
- ભવ્ય પ્રદર્શન વૃદ્ધિ: આ પદ્ધતિએ પ્રક્રિયાગત બેન્ચમાર્ક પર GPT-5.5 ના પ્રદર્શનમાં સરેરાશ 23 પોઈન્ટનો વધારો કર્યો છે, ખાસ કરીને ટૂલ-યુઝ અને સખત ફોર્મેટિંગ કાર્યોમાં શ્રેષ્ઠ પ્રદર્શન કર્યું છે.
- કાર્યક્ષમ અને ટ્રાન્સફરેબલ: ઓપ્ટિમાઇઝ કરેલી સ્કિલ્સ કોમ્પેક્ટ (2,000 ટોકન્સથી ઓછી) છે અને તેને મોટા મોડેલોમાંથી નાના મોડેલોમાં અથવા વિવિધ એજન્ટ એન્વાયરમેન્ટ્સ વચ્ચે ટ્રાન્સફર કરી શકાય છે.