Microsoft 的 SkillOpt 通过 Markdown 优化提升 GPT-5.5 性能
Microsoft 与来自中国三所大学的研究人员共同推出了 SkillOpt,这是一种开创性的方法,它将指令式 Markdown 文件视为可训练的参数。通过优化这些“技能”文档,研究人员使 GPT-5.5 在程序化任务上的性能实现了 23 点的巨大飞跃。
将文本视为可训练权重
在当前的 AI 领域,“技能”(skills)——即引导智能体执行特定程序、工具使用规则和输出格式的模块化指令——正成为行业标准。虽然像 Anthropic 这样的公司利用这些技能来增强 Claude,但这些文档传统上是由人类编写的,或者是通过 LLM 一次性生成的。这两种方法都无法起到真正的优化器的作用。
SkillOpt 通过将 Markdown 文件视为冻结目标模型的外部可训练状态,改变了这一范式。它不是更新模型的权重,而是通过第二个“优化器”语言模型来分析执行日志,以识别反复出现的错误和成功案例。该优化器会对 Markdown 文档进行“手术式”编辑——添加、删除或替换特定段落。至关重要的是,只有当这些更改在预留的验证集上产生可衡量的改进时,才会被接受。
应用于文本的深度学习概念
SkillOpt 的精妙之处在于它如何将传统的深度学习机制映射到文本层级的优化上。研究人员实施了几种复杂的控制机制以确保稳定性:
- 学习率与调度器 (Learning Rate and Schedulers): 学习率限制了每一步允许的编辑次数,而调度器则在训练周期(epochs)中逐渐缩小编辑规模,以防止波动。
- 负反馈缓冲器 (Negative Feedback Buffers): 被拒绝的编辑会被存储在缓冲器中,作为负面示例,防止优化器重复同样的错误。
- 梯度平滑 (Gradient Smoothing): 每个周期结束时的“慢更新”机制保留了稳定的编辑方向,模仿了梯度平滑稳定传统神经网络训练的方式。
这种关注点分离意味着繁重的工作发生在训练阶段。在推理时,目标模型保持轻量化,只需接收一个包含 300 到 2,000 个 token 的紧凑 Markdown 文件作为上下文即可。
基准测试的统治力与跨模型迁移性
实证结果非常显著。在包括搜索、数学、电子表格和具身动作在内的六个基准测试中,SkillOpt 的表现始终优于手工编写的技能以及 TextGrad 和 EvoSkill 等专门方法。在 GPT-5.5 的直接对话中,该方法带来了约 23 分的平均性能提升。
最具影响力的发现之一是该方法的可迁移性。为 GPT-5.5 等大模型优化的技能可以应用于更小的模型(如 Qwen3.5-4B),有效地为它们提供其原生权重中所缺乏的程序性知识。此外,技能具有环境无关性;在 Codex 循环中训练的电子表格技能可以在 Claude Code 中无缝运行,无需重新训练。
例如,在电子表格任务中,优化后的技能学会先检查工作表结构,并直接写入计算后的值,而不是依赖公式。在 ALFWorld 等具身智能任务中,该技能学会维护已访问位置的日志,以确保按正确的顺序完成目标。
核心要点
- 基于文本的优化: SkillOpt 将 Markdown 指令文件视为可训练的状态,使用第二个 LLM 来优化它们,就像优化模型权重一样。
- 巨大的性能提升: 该方法在程序性基准测试中使 GPT-5.5 的性能平均提升了 23 分,尤其在工具使用和严格格式化任务方面表现出色。
- 高效且可迁移: 优化后的技能非常紧凑(少于 2,000 个 token),可以从大模型迁移到小模型,或者在不同的智能体环境之间进行迁移。