Microsoft의 SkillOpt, Markdown 최적화를 통해 GPT-5.5 성능 향상
Microsoft와 중국 3개 대학의 연구진은 지침용 Markdown 파일을 학습 가능한 파라미터로 취급하는 혁신적인 방법인 SkillOpt를 공개했습니다. 연구진은 이러한 "스킬(skill)" 문서를 최적화함으로써 절차적 작업(procedural tasks)에서 GPT-5.5의 성능을 23포인트나 대폭 끌어올렸습니다.
텍스트를 학습 가능한 가중치로 취급하기
현재 AI 분야에서는 에이전트가 특정 절차, 도구 사용 규칙, 출력 형식을 따르도록 안내하는 모듈형 지침인 "스킬(skills)"이 업계 표준이 되고 있습니다. Anthropic과 같은 기업들은 Claude를 강화하기 위해 이러한 스킬을 사용하지만, 전통적으로 이러한 문서는 사람이 직접 작성하거나 LLM이 단 한 번의 실행(single pass)으로 생성합니다. 두 방법 모두 진정한 의미의 옵티마이저(optimizer) 역할을 수행하지는 못합니다.
SkillOpt는 Markdown 파일을 동결된(frozen) 타겟 모델을 위한 외부의 학습 가능한 상태로 취급함으로써 이러한 패러다임을 바꿉니다. 모델의 가중치를 업데이트하는 대신, 두 번째 "옵티마이저(optimizer)" 언어 모델이 실행 로그를 분석하여 반복되는 오류와 성공 사례를 식별합니다. 이 옵티마이저는 Markdown 문서 내에서 특정 구절을 추가, 삭제 또는 교체하는 정밀한 편집(surgical edits)을 제안합니다. 결정적으로, 이러한 변경 사항은 별도의 검증 세트(held-out validation set)에서 측정 가능한 개선이 확인될 때만 수용됩니다.
산문에 적용된 딥러닝 개념
SkillOpt의 탁월함은 전통적인 딥러닝 메커니즘을 텍스트 수준의 최적화에 매핑하는 방식에 있습니다. 연구진은 안정성을 보장하기 위해 다음과 같은 몇 가지 정교한 제어 메커니즘을 구현했습니다.
- 학습률(Learning Rate) 및 스케줄러(Schedulers): 학습률은 단계별로 허용되는 편집 횟수를 제한하며, 스케줄러는 변동성을 방지하기 위해 학습 에포크(epoch)가 진행됨에 따라 편집 크기를 줄여나갑니다.
- 부정적 피드백 버퍼(Negative Feedback Buffers): 거부된 편집 사항은 버퍼에 저장되어, 옵티마이저가 동일한 실수를 반복하지 않도록 하는 부정적 예시(negative examples) 역할을 합니다.
- 그래디언트 스무딩(Gradient Smoothing): 각 에포크 끝에 적용되는 "느린 업데이트(slow update)" 메커니즘은 안정적인 편집 방향을 유지하며, 이는 그래디언트 스무딩이 전통적인 신경망 학습을 안정화하는 방식을 모방한 것입니다.
이러한 관심사의 분리(separation of concerns)는 복잡하고 무거운 작업이 학습 단계에서 이루어짐을 의미합니다. 추론(inference) 시 타겟 모델은 가벼운 상태를 유지하며, 단순히 300~2,000 토큰 규모의 압축된 Markdown 파일을 컨텍스트로 전달받기만 하면 됩니다.
벤치마크 압도 및 모델 간 전이 가능성
실증적 결과는 매우 유의미합니다. 검색, 수학, 스프레드시트, 체화된 행동(embodied action)을 포함한 6개의 벤치마크 테스트 결과, SkillOpt는 수동으로 작성된 스킬과 TextGrad, EvoSkill 같은 전문화된 방법론들을 지속적으로 능가했습니다. GPT-5.5 직접 채팅 환경에서 이 방법론은 평균적으로 약 23점의 성능 향상을 기록했습니다.
가장 영향력 있는 발견 중 하나는 이 방법론의 전이성(transferability)입니다. GPT-5.5와 같은 대형 모델에 최적화된 스킬은 Qwen3.5-4B와 같은 훨씬 작은 모델에도 적용될 수 있으며, 이를 통해 해당 모델의 기본 가중치(native weights)에 결여된 절차적 지식을 효과적으로 제공할 수 있습니다. 또한, 스킬은 환경에 구애받지 않습니다(environment-agnostic). 예를 들어, Codex 루프에서 학습된 스프레드시트 스킬은 재학습 없이도 Claude Code에서 원활하게 작동합니다.
예를 들어, 스프레드시트 작업에서 최적화된 스킬은 수식에 의존하기보다 워크시트 구조를 먼저 확인하고 계산된 값을 직접 작성하는 법을 학습합니다. ALFWorld와 같은 체화된 AI(embodied AI) 작업에서 스킬은 목표가 올바른 순서대로 달성되도록 방문한 위치의 로그를 유지하는 법을 학습합니다.
핵심 요약
- 텍스트 기반 최적화: SkillOpt는 Markdown 지침 파일을 학습 가능한 상태(trainable states)로 취급하며, 두 번째 LLM을 사용하여 모델 가중치와 유사한 방식으로 이를 최적화합니다.
- 대폭적인 성능 향상: 이 방법론은 절차적 벤치마크에서 GPT-5.5의 성능을 평균 23점 끌어올렸으며, 특히 도구 사용(tool-use) 및 엄격한 포맷팅 작업에서 탁월한 성능을 보였습니다.
- 효율성 및 전이성: 최적화된 스킬은 컴팩트하며(2,000 토큰 미만), 대형 모델에서 소형 모델로, 또는 서로 다른 에이전트 환경 간에 전이될 수 있습니다.