SkillOpt ของ Microsoft ช่วยเพิ่มประสิทธิภาพ GPT-5.5 ผ่านการเพิ่มประสิทธิภาพ Markdown
Microsoft และนักวิจัยจากมหาวิทยาลัยสามแห่งในจีนได้เปิดตัว SkillOpt ซึ่งเป็นวิธีการที่ล้ำสมัยในการจัดการกับไฟล์ Markdown เชิงคำสั่งให้เป็นเสมือนพารามิเตอร์ที่สามารถฝึกฝนได้ (trainable parameters) การเพิ่มประสิทธิภาพให้กับเอกสาร "ทักษะ" (skill) เหล่านี้ ทำให้นักวิจัยสามารถเพิ่มประสิทธิภาพของ GPT-5.5 ในงานเชิงกระบวนการ (procedural tasks) ได้สูงขึ้นถึง 23 จุดอย่างมหาศาล
การจัดการกับข้อความในฐานะน้ำหนักที่ฝึกฝนได้ (Trainable Weights)
ในภูมิทัศน์ของ AI ปัจจุบัน "ทักษะ" (skills)—ซึ่งเป็นคำสั่งแบบโมดูลาร์ที่ช่วยนำทางเอเจนต์ (agents) ผ่านกระบวนการเฉพาะ กฎการใช้เครื่องมือ และรูปแบบผลลัพธ์—กำลังกลายเป็นมาตรฐานของอุตสาหกรรม แม้ว่าบริษัทอย่าง Anthropic จะใช้สิ่งเหล่านี้เพื่อเพิ่มประสิทธิภาพให้กับ Claude แต่โดยปกติแล้วเอกสารเหล่านี้จะถูกเขียนโดยมนุษย์หรือสร้างขึ้นโดย LLM ในขั้นตอนเดียว ซึ่งทั้งสองวิธีนี้ไม่ได้ทำหน้าที่เป็นตัวเพิ่มประสิทธิภาพ (optimizer) ที่แท้จริง
SkillOpt เปลี่ยนกระบวนทัศน์นี้โดยการจัดการกับไฟล์ Markdown ให้เป็นสถานะภายนอกที่สามารถฝึกฝนได้ (trainable state) สำหรับโมเดลเป้าหมายที่ถูกแช่แข็งไว้ (frozen target model) แทนที่จะอัปเดตน้ำหนัก (weights) ของโมเดล โมเดลภาษาตัวที่สองซึ่งทำหน้าที่เป็น "optimizer" จะวิเคราะห์บันทึกการทำงาน (execution logs) เพื่อระบุข้อผิดพลาดและความสำเร็จที่เกิดขึ้นซ้ำๆ ตัว optimizer นี้จะเสนอการแก้ไขที่แม่นยำ (surgical edits)—เช่น การเพิ่ม การลบ หรือการแทนที่ข้อความเฉพาะส่วน—ภายในเอกสาร Markdown ที่สำคัญคือ การเปลี่ยนแปลงเหล่านี้จะได้รับการยอมรับก็ต่อเมื่อส่งผลให้เกิดการปรับปรุงที่วัดผลได้ในชุดข้อมูลตรวจสอบ (validation set) ที่แยกไว้เท่านั้น
การประยุกต์ใช้แนวคิด Deep Learning กับงานร้อยแก้ว (Prose)
ความอัจฉริยะของ SkillOpt อยู่ที่วิธีการจับคู่กลไก Deep Learning แบบดั้งเดิมเข้ากับการเพิ่มประสิทธิภาพในระดับข้อความ นักวิจัยได้นำกลไกการควบคุมที่ซับซ้อนหลายอย่างมาใช้เพื่อให้มั่นใจในความเสถียร:
- Learning Rate และ Schedulers: Learning rate จะจำกัดจำนวนการแก้ไขที่อนุญาตต่อขั้นตอน ในขณะที่ scheduler จะลดขนาดการแก้ไขลงในแต่ละ epoch ของการฝึกฝนเพื่อป้องกันความผันผวน
- Negative Feedback Buffers: การแก้ไขที่ถูกปฏิเสธจะถูกเก็บไว้ใน buffer เพื่อใช้เป็นตัวอย่างเชิงลบ (negative examples) ซึ่งช่วยป้องกันไม่ให้ optimizer ทำผิดพลาดซ้ำเดิม
- Gradient Smoothing: กลไก "slow update" ที่ตอนท้ายของแต่ละ epoch จะช่วยรักษาทิศทางการแก้ไขให้มีความเสถียร ซึ่งเลียนแบบวิธีการที่ gradient smoothing ช่วยสร้างความเสถียรในการฝึกฝนโครงข่ายประสาทเทียม (neural network) แบบดั้งเดิม
การแยกส่วนความรับผิดชอบนี้หมายความว่าการประมวลผลหนักๆ จะเกิดขึ้นในระหว่างการฝึกฝน ส่วนในเวลาใช้งานจริง (inference time) โมเดลเป้าหมายจะยังคงมีขนาดเบา โดยเพียงแค่รับไฟล์ Markdown ขนาดกะทัดรัดจำนวน 300 ถึง 2,000 tokens เพื่อใช้เป็นบริบท (context) เท่านั้น
การครองความเป็นหนึ่งใน Benchmark และความสามารถในการถ่ายโอนข้ามโมเดล (Cross-Model Transferability)
ผลลัพธ์เชิงประจักษ์มีความสำคัญอย่างยิ่ง จากการทดสอบผ่านเกณฑ์มาตรฐาน (benchmarks) ทั้ง 6 ด้าน ซึ่งรวมถึงการค้นหา, คณิตศาสตร์, สเปรดชีต และการกระทำในโลกกายภาพ (embodied action) พบว่า SkillOpt มีประสิทธิภาพเหนือกว่าทักษะที่เขียนด้วยมือ (handwritten skills) และวิธีการเฉพาะทางอย่าง TextGrad และ EvoSkill อย่างสม่ำเสมอ เมื่อใช้งานบน GPT-5.5 ผ่านการแชทโดยตรง วิธีการนี้ช่วยเพิ่มประสิทธิภาพเฉลี่ยได้ประมาณ 23 คะแนน
หนึ่งในการค้นพบที่มีอิทธิพลมากที่สุดคือความสามารถในการถ่ายโอน (transferability) ของวิธีการนี้ ทักษะที่ได้รับการปรับแต่ง (optimized) สำหรับโมเดลขนาดใหญ่อย่าง GPT-5.5 สามารถนำไปประยุกต์ใช้กับโมเดลที่มีขนาดเล็กกว่ามาก เช่น Qwen3.5-4B ซึ่งเป็นการมอบความรู้เชิงกระบวนการ (procedural knowledge) ที่โมเดลเหล่านั้นขาดหายไปในน้ำหนัก (weights) ดั้งเดิมของตนเองได้อย่างมีประสิทธิภาพ นอกจากนี้ ทักษะเหล่านี้ยังไม่ยึดติดกับสภาพแวดล้อม (environment-agnostic) โดยทักษะการใช้สเปรดชีตที่ฝึกฝนใน Codex loop สามารถทำงานร่วมกับ Claude Code ได้อย่างราบรื่นโดยไม่ต้องฝึกฝนใหม่
ตัวอย่างเช่น ในงานด้านสเปรดชีต ทักษะที่ได้รับการปรับแต่งจะเรียนรู้ที่จะตรวจสอบโครงสร้างเวิร์กชีตก่อน และเขียนค่าที่ประมวลผลแล้วลงไปโดยตรง แทนที่จะพึ่งพาเพียงแค่สูตรคำนวณ ในงานด้าน Embodied AI เช่น ALFWorld ทักษะนี้จะเรียนรู้ที่จะบันทึกประวัติสถานที่ที่เคยไป เพื่อให้มั่นใจว่าวัตถุประสงค์ต่างๆ จะบรรลุผลตามลำดับที่ถูกต้อง
สรุปประเด็นสำคัญ
- การปรับแต่งโดยใช้ข้อความ (Text-Based Optimization): SkillOpt ปฏิบัติต่อไฟล์คำสั่ง Markdown ในฐานะสถานะที่สามารถฝึกฝนได้ (trainable states) โดยใช้ LLM ตัวที่สองในการปรับแต่งไฟล์เหล่านั้น ซึ่งคล้ายกับการปรับแต่งน้ำหนักของโมเดล (model weights)
- การเพิ่มประสิทธิภาพอย่างมหาศาล: วิธีการนี้ช่วยยกระดับประสิทธิภาพของ GPT-5.5 ขึ้นเฉลี่ย 23 คะแนนในเกณฑ์มาตรฐานเชิงกระบวนการ (procedural benchmarks) โดยมีความโดดเด่นเป็นพิเศษในด้านการใช้เครื่องมือ (tool-use) และงานที่ต้องมีการจัดรูปแบบที่เคร่งครัด
- มีประสิทธิภาพและถ่ายโอนได้: ทักษะที่ได้รับการปรับแต่งจะมีขนาดกะทัดรัด (น้อยกว่า 2,000 tokens) และสามารถถ่ายโอนจากโมเดลขนาดใหญ่ไปยังโมเดลที่เล็กกว่า หรือระหว่างสภาพแวดล้อมของเอเจนต์ (agent environments) ที่แตกต่างกันได้