Microsoft's SkillOpt Boosts GPT 5.5 Performance via Markdown Optimization

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 వారాల క్రితం3min read

In this article

Microsoft యొక్క SkillOpt, Markdown ఆప్టిమైజేషన్ ద్వారా GPT-5.5 పనితీరును మెరుగుపరుస్తుంది

Microsoft మరియు మూడు చైనీస్ విశ్వవిద్యాలయాల పరిశోధకులు SkillOptని వెల్లడించారు. ఇది ఇన్స్ట్రక్షనల్ Markdown ఫైళ్లను ట్రైనబుల్ పారామీటర్లుగా (trainable parameters) పరిగణించే ఒక వినూత్న పద్ధతి. ఈ "skill" డాక్యుమెంట్లను ఆప్టిమైజ్ చేయడం ద్వారా, పరిశోధకులు ప్రొసీజరల్ టాస్క్‌లపై (procedural tasks) GPT-5.5 పనితీరులో భారీగా 23 పాయింట్ల వృద్ధిని సాధించారు.

టెక్స్ట్‌ను ట్రైనబుల్ వెయిట్స్‌గా (Trainable Weights) పరిగణించడం

ప్రస్తుత AI రంగంలో, "skills"—అంటే ఏజెంట్లను నిర్దిష్ట పద్ధతులు, టూల్-యూజ్ రూల్స్ మరియు అవుట్‌పుట్ ఫార్మాట్ల ద్వారా నడిపించే మాడ్యులర్ ఇన్స్ట్రక్షన్స్—పరిశ్రమ ప్రమాణాలుగా మారుతున్నాయి. Anthropic వంటి కంపెనీలు Claudeని మెరుగుపరచడానికి వీటిని ఉపయోగిస్తున్నప్పటికీ, ఈ డాక్యుమెంట్లు సాంప్రదాయకంగా మనుషులచే వ్రాయబడతాయి లేదా ఒక LLM ద్వారా ఒకేసారి రూపొందించబడతాయి. ఈ రెండు పద్ధతులలో ఏదీ నిజమైన ఆప్టిమైజర్‌గా పనిచేయదు.

SkillOpt ఈ పద్ధతిని మారుస్తుంది. ఇది ఒక Markdown ఫైల్‌ను ఫ్రోజన్ టార్గెట్ మోడల్ (frozen target model) కోసం ఒక ఎక్స్‌టర్నల్, ట్రైనబుల్ స్టేట్‌గా పరిగణిస్తుంది. మోడల్ యొక్క వెయిట్స్‌ను అప్‌డేట్ చేయడానికి బదులుగా, రెండవ "optimizer" లాంగ్వేజ్ మోడల్ ఎగ్జిక్యూషన్ లాగ్స్‌ను విశ్లేషించి, పదేపదే జరిగే తప్పులను మరియు విజయాలను గుర్తిస్తుంది. ఈ ఆప్టిమైజర్ ఒక Markdown డాక్యుమెంట్‌లోని నిర్దిష్ట భాగాలను జోడించడం, తొలగించడం లేదా మార్చడం వంటి ఖచ్చితమైన ఎడిట్‌లను (surgical edits) సూచిస్తుంది. ముఖ్యంగా, ఈ మార్పులు ఒక వాలిడేషన్ సెట్‌పై కొలవదగిన మెరుగుదలలను చూపినప్పుడు మాత్రమే అంగీకరించబడతాయి.

గద్యానికి (Prose) అన్వయించిన డీప్ లెర్నింగ్ కాన్సెప్ట్‌లు

సాంప్రదాయ డీప్ లెర్నింగ్ మెకానిక్స్‌ను టెక్స్ట్-లెవల్ ఆప్టిమైజేషన్‌కు SkillOpt ఎలా అనుసంధానిస్తుందనేదే దీని ప్రత్యేకత. స్థిరత్వాన్ని నిర్ధారించడానికి పరిశోధకులు అనేక అధునాతన కంట్రోల్ మెకానిజమ్‌లను అమలు చేశారు:

Learning Rate మరియు Schedulers: లెర్నింగ్ రేట్ ప్రతి దశలో అనుమతించబడే ఎడిట్‌ల సంఖ్యను పరిమితం చేస్తుంది, అదే సమయంలో షెడ్యూలర్ అస్థిరతను నివారించడానికి ట్రైనింగ్ epochs అంతటా ఎడిట్ పరిమాణాన్ని తగ్గిస్తుంది.
Negative Feedback Buffers: తిరస్కరించబడిన ఎడిట్‌లు ఒక బఫర్‌లో నిల్వ చేయబడతాయి, ఇవి ఆప్టిమైజర్ ఒకే తప్పులను మళ్లీ చేయకుండా నిరోధించే నెగటివ్ ఎగ్జాంపుల్స్‌గా పనిచేస్తాయి.
Gradient Smoothing: ప్రతి epoch చివరలో ఉండే "slow update" మెకానిజం స్థిరమైన ఎడిట్ దిశలను కాపాడుతుంది, ఇది సాంప్రదాయ న్యూరల్ నెట్‌వర్క్ ట్రైనింగ్‌ను గ్రాడియంట్ స్మూతింగ్ ఎలా స్థిరీకరిస్తుందో అలానే పనిచేస్తుంది.

ఈ విభజన వల్ల ప్రధానమైన పనులన్నీ ట్రైనింగ్ సమయంలోనే జరుగుతాయి. ఇన్ఫరెన్స్ సమయంలో (inference time), టార్గెట్ మోడల్ చాలా తేలికగా ఉంటుంది, ఇది కేవలం 300 నుండి 2,000 టోకెన్ల సంక్షిప్త Markdown ఫైల్‌ను కాంటెక్స్ట్‌గా మాత్రమే స్వీకరిస్తుంది.

బెంచ్‌మార్క్ ఆధిపత్యం మరియు క్రాస్-మోడల్ ట్రాన్స్‌ఫరబిలిటీ (Cross-Model Transferability)

అనుభవపూర్వక ఫలితాలు గణనీయంగా ఉన్నాయి. సెర్చ్, మ్యాథ్, స్ప్రెడ్‌షీట్స్ మరియు ఎంబోడీడ్ యాక్షన్ వంటి ఆరు బెంచ్‌మార్క్‌లలో పరీక్షించినప్పుడు, SkillOpt నిరంతరంగా హ్యాండ్‌రిటెన్ స్కిల్స్ మరియు TextGrad మరియు EvoSkill వంటి ప్రత్యేక పద్ధతుల కంటే మెరుగైన పనితీరును కనబరిచింది. డైరెక్ట్ చాట్‌లో GPT-5.5 పై, ఈ పద్ధతి సగటున సుమారు 23 పాయింట్ల పనితీరు పెరుగుదలను అందించింది.

ఈ పద్ధతి యొక్క అత్యంత ప్రభావవంతమైన అంశాలలో ఒకటి దాని ట్రాన్స్‌ఫరబిలిటీ. GPT-5.5 వంటి పెద్ద మోడల్ కోసం ఆప్టిమైజ్ చేయబడిన స్కిల్‌ను Qwen3.5-4B వంటి చాలా చిన్న మోడళ్లకు కూడా వర్తింపజేయవచ్చు, తద్వారా వాటి నేటివ్ వెయిట్స్‌లో లేని ప్రొసీజరల్ నాలెడ్జ్‌ను సమర్థవంతంగా అందించవచ్చు. అంతేకాకుండా, ఈ స్కిల్స్ ఎన్విరాన్‌మెంట్-అగ్నోస్టిక్; Codex లూప్‌లో శిక్షణ పొందిన స్ప్రెడ్‌షీట్ స్కిల్, మళ్లీ శిక్షణ ఇవ్వాల్సిన అవసరం లేకుండానే Claude Codeలో అద్భుతంగా పనిచేస్తుంది.

ఉదాహరణకు, స్ప్రెడ్‌షీట్ పనులలో, ఆప్టిమైజ్ చేయబడిన స్కిల్ ఫార్ములాలపై ఆధారపడకుండా, మొదట వర్క్‌షీట్ నిర్మాణాలను తనిఖీ చేయడం మరియు నేరుగా ఎవాల్యుయేటెడ్ వాల్యూస్‌ను రాయడం నేర్చుకుంటుంది. ALFWorld వంటి ఎంబోడీడ్ AI పనులలో, లక్ష్యాలు సరైన క్రమంలో నెరవేరేలా చూడటానికి సందర్శించిన ప్రదేశాల లాగ్‌ను నిర్వహించడం ఈ స్కిల్ నేర్చుకుంటుంది.

ముఖ్య అంశాలు

టెక్స్ట్-ఆధారిత ఆప్టిమైజేషన్: SkillOpt, Markdown ఇన్‌స్ట్రక్షన్ ఫైల్‌లను ట్రైనింగ్ చేయదగిన స్టేట్స్‌గా పరిగణిస్తుంది, మరియు మోడల్ వెయిట్స్‌ వలె వాటిని ఆప్టిమైజ్ చేయడానికి రెండవ LLMని ఉపయోగిస్తుంది.
భారీ పనితీరు వృద్ధి: ఈ పద్ధతి ప్రొసీజరల్ బెంచ్‌మార్క్‌లపై GPT-5.5 పనితీరును సగటున 23 పాయింట్లు పెంచింది, ముఖ్యంగా టూల్-యూజ్ మరియు స్ట్రిక్ట్ ఫార్మాటింగ్ పనులలో అద్భుతమైన ఫలితాలను చూపింది.
సమర్థవంతమైన మరియు బదిలీ చేయదగినవి: ఆప్టిమైజ్ చేయబడిన స్కిల్స్ చాలా తక్కువ పరిమాణంలో (2,000 టోకెన్ల కంటే తక్కువ) ఉంటాయి మరియు పెద్ద మోడళ్ల నుండి చిన్న మోడళ్లకు లేదా వివిధ ఏజెంట్ ఎన్విరాన్‌మెంట్‌ల మధ్య బదిలీ చేయబడతాయి.