Probably、精密工学によってLLMのハルシネーションに対抗するため900万ドルを調達

大規模言語モデル(LLM)がプロフェッショナルなワークフローにますます統合されるにつれ、業界は根強い課題に直面しています。それは、最も高度なモデルでさえもハルシネーション(幻覚)を起こす傾向があることです。スタートアップのProbablyは、この課題に正面から取り組んでおり、Andreessen Horowitzが主導する900万ドルのシード資金を調達しました。これにより、AIの信頼性に対して、より厳格で決定論的なアプローチを構築することを目指しています。

99.99%の精度に向けて

創設者のPeter Eliasが率いるProbablyの核心的なミッションは、LLMの確率的な性質と、決定論的なシステムに期待される99.99%の精度基準との間のギャップを埋めることです。リスクの高い環境では、たった一つの事実誤認がAIツールを使い物にならなくしてしまう可能性があります。これを解決するため、Probablyは「精度は単にモデルの規模に依存する」という考え方から脱却し、「ハーネス・エンジニアリング(harness engineering)」に焦点を当てています。

同社の主力製品は、複雑なデータセットからインサイトを抽出するために設計されたデータサイエンス・ツールです。会話形式の回答を提供する標準的なチャットボットとは異なり、Probablyのツールはすべての回答に具体的な引用と透明性の高い監査証跡(オーディット・トレイル)を付与し、ユーザーがあらゆる出力の背後にある論理を検証できるようにします。

「データサイエンス・メックスーツ」アーキテクチャ

巨大なモデルの推論能力だけに頼るのではなく、ProbablyはEliasが「データサイエンス・メックスーツ(data science mech suit)」と呼ぶものを活用しています。このアーキテクチャは、精巧なハーネス・システムとして機能し、LLMの初期出力が即座に決定論的なバリデーター(検証器)によって精査されます。

LLMが基礎となるデータセットと完全に一致しない結果を出力した場合、バリデーターがそれを拒否します。重要なのは、LLMがこのバリデーターに対して特化してトレーニングされており、速度と事実の整合性に最適化されたクローズドループ・システムを構築している点です。このアプローチは、「エンジニアリングを通じてコンテキストを洗練させ、曖昧さを排除することで、膨大な計算リソースによる力技を必要とせずに、モデルに『正しいこと』を強制できる」という根本的な原則に基づいています。

より小型でローカルなモデルによる効率化

Probablyのアプローチがもたらす最も重要な技術的意義の一つは、より小型で効率的なモデルを使用できることです。「メックスーツ」が検証とコンテキストの洗練という重労働を担うため、システムは「最先端モデル(フロンティアモデル)よりも4段階性能が低い」モデルでも動作させることが可能です。

この転換は、経済的および運用面で多大なメリットをもたらします:

大手AIラボのインセンティブモデルへの挑戦

エリアスは、現在のAI業界における構造的な不整合を指摘しています。大手AIラボには、頻繁なユーザーによる修正を必要とするような、巨大で汎用的なモデルを構築するインセンティブが働いています。これらのラボは多くの場合、トークン使用量に基づいて課金するため、エラーが増え、フォローアップのクエリが増えるほど、実際には収益が増加することになります。Probablyは、規模の拡大ではなく、エンジニアリングを通じて精度を高め「曖昧さを排除すること」に焦点を当てることで、信頼性こそが唯一の重要な指標となるミッションクリティカルなAIアプリケーション向けのニッチな市場を切り拓いています。

主なポイント