Microsoft FastContext, 코딩 에이전트 토큰 사용량 60% 절감
코딩 에이전트는 코드를 찾는 데 너무 많은 시간을 낭비합니다.
에이전트가 저장소(repository)를 검색할 때, 종종 모든 파일을 자신의 컨텍스트 창(context window)으로 불러옵니다. 이는 에이전트가 코딩을 시작하기도 전에 "책상"을 가공되지 않은 데이터로 가득 채우는 결과를 초래합니다.
Microsoft 연구진은 GPT-5.4 트레이스를 연구하여 심각한 문제를 발견했습니다:
- 코드 검색 및 읽기가 전체 도구 사용량의 56.2%를 차지했습니다.
- 메인 에이전트 전체 토큰의 46.5%를 소모했습니다.
이 데이터의 대부분은 유의미한 정보(signal)가 적습니다. 에이전트에게는 단 몇 줄만 필요할 뿐인데, 파일 전체를 들고 다니기 때문입니다.
Microsoft는 이 문제를 해결하기 위해 FastContext를 출시했습니다.
메인 에이전트가 직접 검색하는 대신, 전용 탐색 서브 에이전트(explorer subagent)를 사용합니다. 이를 사서(librarian)에 비유할 수 있습니다. 당신은 책상에 앉아 있고, 사서를 서가로 보내 정보를 찾아오게 하는 방식입니다.
작동 방식:
- 메인 에이전트가 탐색기(explorer)에게 자연어 쿼리를 보냅니다.
- 탐색기는 Read, Glob, Grep와 같은 읽기 전용 도구를 사용합니다.
- 탐색기는 자신만의 별도 컨텍스트에서 코드를 찾습니다.
- 파일 전체를 다시 보내는 대신, "파일-라인 인용(file-line citation)"을 보냅니다.
- 인용 형식은 다음과 같습니다: path/to/file.ts:88-104.
메인 에이전트는 방대한 텍스트 없이 정확한 위치만 전달받습니다.
결과는 놀라웠습니다:
- 토큰 사용량 최대 60% 감소.
- 작업 해결률(task resolution rates) 최대 5.5% 증가.
탐색기 모델(4B-30B)은 두 단계의 학습 과정을 거칩니다. 첫째, 지도 미세 조정(supervised fine-tuning)을 통해 탐색 방법을 배웁니다. 둘째, 작업 기반 강화 학습(task-grounded reinforcement learning)을 통해 메인 에이전트가 문제를 해결하는 데 실제로 도움이 되는 증거를 찾도록 보장합니다.
"건초더미"를 서브 에이전트에게 맡김으로써, 메인 에이전트는 실제 추론과 코딩을 위해 컨텍스트 창을 깨끗하게 유지할 수 있습니다.
선택 사항 학습 커뮤니티: https://t.me/GyaanSetuAi