バイアスのないAIパイプラインを構築する

6週間かけて、AIパイプラインにバイアスがあることを学んだ。 それは脆弱である。 監査が困難である。 いくつかの修正は効果がある。 これらの修正はピアレビュー済みである。 今週、それらをリリースする。

異なるモデルファミリーのジェネレーターとジャッジを使用する。 生成にはOpenAIを使用する。 判定にはAnth Anthropicを使用する。 これにより、自己嗜好バイアス(self-preference bias)を防ぐことができる。 モデルが自分自身のスタイルを好む現象を抑止できる。

「回答は良いか?」と聞くのはやめよう。 以下の項目についてスコアを求める。

  • 正確性
  • 網羅性
  • トーン
  • 実用性 これにより、バイアスを31.5%削減できる。

スコアを付ける前に、ジャッジに推論を行わせる。 事実を列挙させる。 各事実を検証させる。 その上でスコアを割り当てる。 これにより、正確性が1.5から13ポイント向上する。

単一の出力を監視してはいけない。 母集団全体を監視する。 スコア分布のシフトを探す。 これにより、ドリフトや攻撃を早期に検知できる。

競合的なセットアップは避ける。 エージェント同士を議論させてはいけない。 協調的なセットアップを使用する。 1つのエージェントが生成する。 1つのエージェントが欠落を見つける。 1つのエージェントが欠落を埋める。 これにより、堅牢性が68%向上する。

チェックリスト:

今週:

  • プロンプトに推論を追加する。
  • 構造化された評価を使用する。
  • モデルファミリーを確認する。

今月:

  • ファミリーをまたいだ評価をセットアップする。
  • 母集団のモニタリングを開始する。

今四半期:

  • 敵対的攻撃のテストを行う。
  • 協調的な設計に移行する。

これを完全に解決することはできない。 バイアスを減らすことはできる。 エラーをより早く検知できるようになる。 それが目標である。

出典: https://dev.to/sayokbose91/part-6-of-6-how-to-build-pipelines-that-dont-gaslight-themselves-dci オプションの学習コミュニティ: https://t.me/GyaanSetuAi