バイアスのないAIパイプラインを構築する
6週間かけて、AIパイプラインにバイアスがあることを学んだ。 それは脆弱である。 監査が困難である。 いくつかの修正は効果がある。 これらの修正はピアレビュー済みである。 今週、それらをリリースする。
異なるモデルファミリーのジェネレーターとジャッジを使用する。 生成にはOpenAIを使用する。 判定にはAnth Anthropicを使用する。 これにより、自己嗜好バイアス(self-preference bias)を防ぐことができる。 モデルが自分自身のスタイルを好む現象を抑止できる。
「回答は良いか?」と聞くのはやめよう。 以下の項目についてスコアを求める。
- 正確性
- 網羅性
- トーン
- 実用性 これにより、バイアスを31.5%削減できる。
スコアを付ける前に、ジャッジに推論を行わせる。 事実を列挙させる。 各事実を検証させる。 その上でスコアを割り当てる。 これにより、正確性が1.5から13ポイント向上する。
単一の出力を監視してはいけない。 母集団全体を監視する。 スコア分布のシフトを探す。 これにより、ドリフトや攻撃を早期に検知できる。
競合的なセットアップは避ける。 エージェント同士を議論させてはいけない。 協調的なセットアップを使用する。 1つのエージェントが生成する。 1つのエージェントが欠落を見つける。 1つのエージェントが欠落を埋める。 これにより、堅牢性が68%向上する。
チェックリスト:
今週:
- プロンプトに推論を追加する。
- 構造化された評価を使用する。
- モデルファミリーを確認する。
今月:
- ファミリーをまたいだ評価をセットアップする。
- 母集団のモニタリングを開始する。
今四半期:
- 敵対的攻撃のテストを行う。
- 協調的な設計に移行する。
これを完全に解決することはできない。 バイアスを減らすことはできる。 エラーをより早く検知できるようになる。 それが目標である。
出典: https://dev.to/sayokbose91/part-6-of-6-how-to-build-pipelines-that-dont-gaslight-themselves-dci オプションの学習コミュニティ: https://t.me/GyaanSetuAi