AI 에이전트, 전문가급 작업에서 0% 점수 기록
AI 에이전트들이 전문가급 작업에 실패했습니다.
ALE 벤치마크는 전문적인 업무를 대상으로 최상위 모델들을 테스트했습니다. 이러한 작업은 실제 전문 지식을 필요로 합니다. PDF를 요약하는 것과 같은 단순한 작업이 아닙니다.
결과는 명확했습니다. Fable 5 및 GPT-5.5와 같은 모델들은 가장 어려운 전문가용 문제에서 0%를 기록했습니다. 동전 던지기가 더 나은 성과를 낼 것입니다.
중간 수준의 작업에 대한 성능 또한 낮았습니다. 가장 뛰어난 에이전트들도 성공률이 15%에서 21%에 불과했습니다.
AI 에이전트는 과장된 광고만큼 대단하지 않습니다.
에이전트가 항공권을 예약하거나 코드를 작성하는 영상을 보셨을 겁니다. 이러한 데모는 훌륭해 보입니다. 하지만 데모는 선별된 것이며, 벤치마크는 그렇지 않습니다.
데모와 실제 배포 사이에는 거대한 격차가 존재합니다. 많은 팀이 존재하지 않는 기술을 바탕으로 제품 결정을 내립니다. 그들은 에이전트가 전체 워크플로우를 관리하도록 계획합니다. 이것은 실수입니다.
데이터가 보여주는 내용은 다음과 같습니다:
- 에이전트는 중간 수준 작업의 보조자로서 잘 작동합니다.
- 전문가 수준의 자율성은 아직 도래하지 않았습니다.
- 벤치마크가 데모보다 더 신뢰할 수 있습니다.
오늘날 에이전트를 활용해 무언가를 만든다면, 현재의 한계를 고려하여 만드십시오. 강연자가 곧 일어날 것이라고 약속하는 미래를 보고 만들지 마십시오.
업계는 이러한 결과를 무시합니다. 사람들은 데이터 대신 과장된 광고를 바탕으로 로드맵을 계속해서 구축하고 있습니다.
제품에 에이전트를 사용한다면, 주니어 개발자처럼 대하십시오. 그들은 명확한 규칙이 있는 작은 작업에는 잘 작동하지만, 감독이 없는 복잡한 작업에서는 실패합니다.
다음 규칙을 따르십시오:
- 중요한 작업에는 반드시 사람이 개입하도록 하십시오 (Human-in-the-loop).
- 에이전트에게 매우 좁은 범위의 작업을 부여하십시오.
- 실제 업무량을 기준으로 성능을 측정하십시오.
실용적인 접근 방식은 화제성 있는 글보다 재미는 없을지 모릅니다. 하지만 그 결과는 실제로 작동하는 소프트웨어가 됩니다.
에이전트는 도구입니다. 자율적인 노동력이 아닙니다. 현실에 맞춰 구축하십시오.
팀들이 출시하려고 시도했던 에이전트 기능 중 가장 과장되었다고 생각하는 것은 무엇인가요? 아래에 여러분의 이야기를 공유해 주세요.
Source: https://dev.to/adioof/ai-agents-scored-0-on-expert-tasks-the-hype-machine-doesnt-care-2bp1
Optional learning community: https://t.me/GyaanSetuAi