𝗪𝗵𝘆 𝗠𝘆 𝗥𝗔𝗚 𝗔𝗽𝗽 𝗞𝗲𝗽𝘁 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗻𝗴 𝗔𝗻𝗱 𝗛𝗼𝘄 𝗜 𝗙𝗶𝘅𝗲𝗱 𝗜𝘁

Translated for your language. 原文を読む.

AI-assisted draft.

GyaanSetu Editorial4 時間前2分で読めます

なぜ私のRAGアプリはハルシネーションを繰り返したのか、そしてどのように修正したか

数ヶ月前、私は自作のRAGサポートボットのデモを行いました。それは同僚に対し、返金ポリシーは30日間であると答えました。実際のポリシーは14日間です。ボットは躊躇しませんでした。「わからない」とも言いませんでした。完全に自信満々に、でっち上げた回答を提示したのです。

RAGはハルシネーションを減らすためのものですが、私の設定では単に発生場所を移動させただけでした。このシステムをデバッグする過程で、5つの教訓を学びました。

チャンクに固定の文字数を使用するのをやめる私は、わずかにオーバーラップさせた1000文字のチャンクを使用していました。これが問題を引き起こしました。一つのチャンクに、配送ルールと返品ルールが混在してしまうことがよくあったのです。モデルはこれらの異なるセクションを混ぜ合わせ、一つの誤った回答を作成してしまいました。解決策：セマンティック・チャンキング（semantic chunking）に切り替えました。見出しや段落ごとにデータを分割することで、関連する情報をまとめて保持できるようにしました。
類似性は関連性を意味しない私のretrieverは、コサイン類似度に基づいて上位3つのチャンクを取得していました。チャンクは質問に似ているように見えても、答えを含んでいないことがあります。モデルは、コンテキスト内のすべてが真実であると仮定してしまいます。解決策：cross-encoderを使用したリランキング（reranking）のステップを追加しました。また、retrieval scoresのログ出力も開始しました。これにより、システムに適切な回答が欠けているかどうかを判断できるようになりました。
モデルに「失敗してもよい」と伝える当初のプロンプトは単純なものでした：「コンテキストを使用して質問に答えてください」。コンテキストが不足している場合の指示がモデルに与えられていませんでした。モデルはその空白を推測で埋めてしまったのです。解決策：具体的な指示を追加しました。「もし回答がコンテキスト内にない場合は、わからないと答えてください」。これにより、ハルシネーションは即座に減少しました。
リトリーバルの閾値を強制するリトリーバルが失敗しても、モデルは依然として一般的な知識を使用していました。プロンプトでうまくいくことを期待していましたが、期待するだけでは戦略とは言えません。解決策：厳格なスコアの閾値を設定しました。上位のリトリーバル・スコアが低すぎる場合、システムを停止させます。モデルに推測させるのではなく、フォールバック・メッセージを返すようにしました。
成功だけでなく、失敗についてもテストするドキュメントがカバーしていることがわかっている簡単な質問しかテストしていませんでした。曖昧なクエリや情報の欠落を無視していました。ハルシネーションはその隙間に潜んでいるのです。解決策：トラップ質問（trap questions）の評価セットを作成しました。これは、正しい答えがシステム内に存在しないケースです。変更を加えるたびに、これらのテストを実行しています。

RAGはハルシネーションを完全に止めるものではありません。それを制御可能にするものです。私のボットがいまだにすべてを知っているわけではありません。しかし今では、確信が持てないときには、そう伝えてくれます。それによって、ツールとして実用的なものになりました。

出典: https://dev.to/pallavi_sharma_10c1a6f1da/why-my-rag-app-kept-hallucinating-and-how-i-fixed-it-3i10

𝗪𝗵𝘆 𝗠𝘆 𝗥𝗔𝗚 𝗔𝗽𝗽 𝗞𝗲𝗽𝘁 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗻𝗴 𝗔𝗻𝗱 𝗛𝗼𝘄 𝗜 𝗙𝗶𝘅𝗲𝗱 𝗜𝘁

続きを読む

𝗜 𝗔𝗱𝗱𝗲𝗱 𝗮 𝗩𝗲𝗿𝗶𝗳𝘆 𝗟𝗮𝘆𝗲𝗿 𝘁𝗼 𝗠𝘆 𝗟𝗼𝗰𝗮𝗹 𝗥𝗔𝗚 𝘁𝗼 𝗖𝗮𝘁𝗰𝗵 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

RAGがAIのハルシネーションを85%削減する方法

RAGを用いたコードQ&Aボットを構築して分かったこと：成功と失敗

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗥𝗔𝗚 𝗦𝘆𝘀𝘁𝗲𝗺 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗲𝘀

𝗪𝗵𝘆 𝗠𝘆 𝗥𝗔𝗚 𝗔𝗽𝗽 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗲𝗱 𝗔𝗻𝗱 𝗛𝗼𝘄 𝗜 𝗙𝗶𝘅𝗲𝗱 𝗜𝘁