𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁'𝘀 𝗠𝗲𝗺𝗼𝗿𝘆 𝗜𝘀 𝗟𝗶𝗸𝗲𝗹𝘆 𝗟𝘆𝗶𝗻𝗴 𝗧𝗼 𝗬𝗼𝘂
지난 6개월 동안 내 에이전트 메모리가 제대로 작동하고 있다고 생각했다.
세션 간의 세부 사항을 기억했고, 프로젝트의 컨텍스트를 불러왔으며, 실수를 바로잡았다. 모든 징후가 성공을 가리키고 있었다.
틀렸다.
Claude Code에는 자체 내장 메모리가 있다. 그 시스템이 실제로 일을 하고 있었던 것이다. 내 시스템은 실행 중이었고 자체 저장소에 데이터를 쓰고 있었다. 겉보기에는 바빠 보였다. 하지만 그것은 다른 배우가 대사를 읊는 무대 위에서 대역을 맡고 있는 언더스터디(understudy)에 불과했다.
요란하게 실패하는 시스템은 고치기 쉽다. 에러가 눈에 보이고, 바로 조치를 취할 수 있기 때문이다.
조용히 실패하는 시스템은 위험하다. 유용한 답변을 내놓고, 성공한 것처럼 보이기 때문이다. 출력값만 봐서는 시스템이 제대로 작동하는지 알 수 없다. 출력값은 똑같기 때문이다.
진실을 찾기 위해서는 강제적인 장치(forcing function)가 필요하다. 다른 시스템을 꺼야만 한다.
이 테스트는 어떤 에이전트 메모리 설정에도 적용 가능하다. 1분이면 충분하다.
다음 단계를 따르라:
• 런타임의 네이티브 메모리를 끈다.
• Claude Code에서 다음 명령어를 사용한다: CLAUDE_CODE_DISABLE_AUTO_MEMORY=1
• 평소처럼 에이전트를 사용한다.
• 특정 사실을 기억하라고 요청한다.
• 새 세션을 시작하고 그 사실을 물어본다.
시스템이 단독으로 어떻게 행동하는지 지켜보라.
메모리가 작동한다면, 당신의 시스템은 견고한 것이다.
메모리가 비어버린다면, 네이티브 저장소가 당신을 대신해 일을 해주고 있었던 것이다. 당신이 보여준 모든 데모는 당신의 시스템이 아니라 그저 그림자였을 뿐이다.
이 테스트를 실행했을 때, 내 시스템은 침묵했다. 6개월간의 성공은 사실 다른 무언가가 내 실수를 덮어주고 있었던 시간이었다.
이미 메모리 기능이 있는 런타임에 메모리를 추가하면 이런 위험에 직면하게 된다. 모델이 똑똑해질수록 이러한 격차를 더 잘 숨긴다. 잘 다듬어진 데모가 시스템의 작동을 증명하는 것은 아니다. 그저 모델이 당신의 실패를 숨길 만큼 충분히 뛰어나다는 것을 증명할 뿐일 수도 있다.
좋은 답변을 믿지 마라. '오프 테스트(off-test)'를 실행하라. 다른 기능을 끄고, 실제로 누가 말하고 있는지 확인하라.
나는 이것을 배우는 데 6개월이 걸렸지만, 당신은 1분이면 충분할 것이다.
Optional learning community: https://t.me/GyaanSetuAi