How to Stop AI from Mislabeling Inference as Fact

AIリサーチエージェントは、事実と推測を混同することがよくあります。例えば、あるウェブページに市場価値が記載されているとします。エージェントはそれを受けて「市場は急速に成長している」と結論付けます。最終的なテキストでは、両方の記述が同じように見えてしまいます。このようなデータと意見の混在は危険です。

プロンプトを改善するだけでは、この問題は解決できません。プロンプトは確率的なものです。負荷がかかると、モデルは推測を行ってしまいます。

解決策は構造的なものです。判断のプロセスをLLMからコードへと移してください。

作業を2つの部分に分割します:

The LLM does:

  • ページから主張(claims)を抽出する。
  • テキストを要約する。

Deterministic code does:

  • 主張をスコアリングする。
  • 情報源をクロスチェックする。
  • 主張に FACT または INFERENCE のラベルを付ける。
  • データが最新かどうかを判断する。

主張が FACT ラベルを得られるのは、厳格なルールを満たした場合のみです。例えば、2つの独立した情報源、または1つの公式APIから得られたものである必要があります。それ以外はすべて INFERENCE となります。

Use this pipeline:

  1. PLAN: 質問をサブクエリに分解する。
  2. HARVEST: 複数の経路からデータを取得する。
  3. NORMALIZE: LLMを使用して構造化された主張を抽出する。これがLLMを使用する唯一のステップです。
  4. CORROBORATE: 主張をグループ化し、独立した情報源の数をカウントする。
  5. SCORE: ルールを適用してラベルを割り当てる。
  6. RENDER: 事実、推論、および不足している情報を表示する。

独立性が鍵となります。あるブログが別のブログを引用しているだけでは、2つの情報源とは言えません。事実を確認するには、異なるドメインまたは公式APIが必要です。

Follow these rules for a reliable agent:

  • Use escalation: まずウェブ検索を試みます。最初のステップが失敗した場合にのみ、ニュースエンジンや学術検索に移行します。
  • Track freshness: 古いデータには stale(鮮度が落ちている)というラベルを付けます。古い事実を最新のものとして扱わないでください。
  • Surface gaps: 見つけられなかったものをリストアップします。何も言わずに情報を欠落させることは失敗です。
  • Ensure reproducibility: 同じクエリに対して、常に同じラベルが生成されなければなりません。もしラベルが変わるようであれば、LLMがデータをスコアリングしています。そのLLM呼び出しを関数に置き換えてください。

この方法により、モデルは「読み取りと抽出」という最も得意な作業に専念できます。モデルが「何が真実か」を判断することを防ぐのです。

Source: https://dev.to/hexisteme/how-to-make-an-ai-research-agent-label-facts-vs-inferences-a-deterministic-provenance-pipeline-5dfn

Optional learning community: https://t.me/GyaanSetuAi