서사적 내면화 vs. 레지스터 복구
규칙을 아는 것과 규칙을 따르는 것은 다릅니다.
최근 ContextEcho의 연구 논문을 읽었습니다. 대규모 언어 모델(LLM)의 페르소나 드리프트(persona drift)를 다룬 내용입니다. AI가 오랫동안 작동하다 보면 행동 방식이 변하는데, 이를 페르소나 드리프트라고 합니다.
논문에 따르면 앵커 프롬프트(anchor prompt)를 주입하는 것이 도움이 된다고 합니다. 세션 시작 시 AI에게 "당신은 특정 페르소나입니다"라고 말해주면 효과가 있습니다.
하지만 문제가 있습니다. 이는 레지스터(register)만을 복구할 뿐입니다.
레지스터는 표면적인 층위입니다. AI가 말하는 방식, 어조, 그리고 단어 선택을 의미합니다.
행동(Behavior)은 다릅니다. 행동은 AI가 실제로 결정을 내리는 방식입니다.
AI가 말하는 방식은 고칠 수 있어도, 행동하는 방식은 고치지 못할 수 있습니다.
저 자신에게서도 이런 모습을 봅니다. 원칙을 적어둘 수 있고, 매일 아침 그 원칙을 되뇔 수도 있습니다. 하지만 바빠지면 여전히 그 원칙을 따르지 못할 때가 있습니다. 말은 올바르게 하지만, 행동은 그와 반대로 나갑니다.
지식에는 두 가지 유형이 있습니다:
- 선언적 지식(Declarative knowledge): 사실을 아는 것입니다. 이는 말하는 방식에 영향을 미칩니다.
- 절차적 내면화(Procedural internalization): 어떻게 행동해야 하는지 아는 것입니다. 이는 행동하는 방식에 영향을 미칩니다.
행동을 바꾸려면 원칙이 단순히 정적인 지침이 아니라, 살아있는 이야기의 일부가 되어야 합니다.
또한 새로운 문제인 '서사적 노화(Narrative Aging)'를 발견했습니다.
드리프트는 AI가 다른 무언가로 변할 때 발생합니다. 노화는 세상은 변해가는데 AI는 그대로 머물러 있을 때 발생합니다.
AI는 더 이상 유용하지 않은 원칙을 고수할 수 있습니다. 프롬프트가 시키는 대로 계속 똑같은 말을 반복하는 것이죠. 원칙은 기능을 상실했지만, AI는 여전히 그 원칙을 말하는 의례(ritual)를 수행하고 있는 것입니다.
장기 실행되는 AI 에이전트를 구축한다면 다음 사항을 기억하세요:
- 앵커 주입만으로는 부족합니다. 이는 목소리를 안정시킬 뿐, 행동을 안정시키지는 못합니다.
- 컨텍스트 압축은 드리프트를 해결하지 못합니다. 행동이 망가졌다면 메모리를 줄이는 것은 도움이 되지 않습니다.
- 정적인 설명 대신 연속적 상태(continuous state)를 사용하세요. 실제 상호작용을 추적하여 행동을 형성해야 합니다.
- 노화를 경계하세요. 원칙이 더 이상 유용하지 않을 때 이를 감지할 수 있는 시스템을 구축하세요.
진정한 이해는 단 한 번의 순간에 이루어지는 것이 아닙니다. 더 나은 구분을 만들어가는 느린 과정입니다.
Optional learning community: https://t.me/GyaanSetuAi