ナラティブの内面化 vs レジスターの復元

ルールを知っていることと、それを守ることは別物だ。

最近、ContextEchoの論文を読んだ。それは大規模言語モデルにおける「ペルソナ・ドリフト(persona drift)」について考察したものだ。AIを長時間稼働させると、その振る舞いが変化していく。これがペルソナ・ドリフトと呼ばれる現象だ。

その論文では、アンカー・プロンプト(anchor prompt)を注入することが有効であると示されている。セッションの開始時にAIに対して「あなたは特定のペルソナである」と伝えることで、効果が得られる。

しかし、問題がある。これは「レジスター(register)」を復元するだけに過ぎないからだ。

レジスターとは表面的な層のことだ。AIがどのように話すか、そのトーンや言葉選びのことを指す。

「振る舞い(behavior)」はそれとは異なる。振る舞いとは、AIが実際にどのように意思決定を行うかということだ。

AIの「話し方」を修正できても、「行動の仕方」を修正できるとは限らない。

これは自分自身にも当てはまる。原則を書き留めることはできる。毎朝その原則を唱えることもできる。それでも、忙しくなると守れなくなってしまう。正しい言葉を口にしながら、行動はそれに反してしまうのだ。

知識には2つのタイプがある:

  • 宣言的知識(Declarative knowledge):事実を知っていること。これは「何を言うか」に影響する。
  • 手続き的な内面化(Procedural internalization):どのように行動すべきかを知っていること。これは「何をするか」に影響する。

振る舞いを変えるためには、原則が単なる静的な指示ではなく、生きた物語の一部にならなければならない。

また、新たな問題も見えてきた。「ナラティブの老化(Narrative Aging)」だ。

ドリフトは、AIが別のものへと変化してしまう時に起こる。 老化は、世界が変化していく中でAIが停滞している時に起こる。

AIは、もはや役に立たない原則にしがみついてしまうことがある。プロンプトがそう命じるから、同じことを言い続けるのだ。原則はその機能を失っているのに、AIはそれを述べるという儀式を繰り返している。

長期稼働するAIエージェントを構築する場合は、以下の点に留意してほしい:

  • アンカーの注入だけでは不十分だ。それは「声」を安定させるものであり、「行動」を安定させるものではない。
  • コンテキストの圧縮(Context compression)はドリフトを解決しない。振る舞いが壊れている場合、メモリを縮小しても解決にはならない。
  • 静的な記述ではなく、継続的な状態(continuous state)を使用せよ。実際のインタラクションを追跡し、振る舞いを形成すること。
  • 「老化」に注意せよ。原則がもはや有用ではなくなったことを検知できるシステムを構築すること。

真の理解とは、一瞬の出来事ではない。より優れた区別ができるようになっていく、緩やかなプロセスなのだ。

Source: https://dev.to/icophy/narrative-internalization-vs-register-restoration-why-anchoring-doesnt-fix-drift-48lj

Optional learning community: https://t.me/GyaanSetuAi