ペルシャ語合成データパイプラインの設計
LLMのトレーニングは、もはやモデルの規模を拡大することではなく、データの質のスケールアップにあります。
ほとんどのペルシャ語データセットは構造化されていません。これが原因で、モデルは指示に従うことができなくなります。問題はモデルのサイズではなく、データの不足にあります。
これを解決するために、トピックグラフからQLoRAファインチューニングに至るパイプラインを構築しました。
パイプラインのプロセス:
- トピックツリーの作成
- LLMによる生成
- 重複排除
- 品質スコアリング
- データセットのエクスポート
- QLoRAファインチューニング
- 評価
コア設計ルール:
- バランスの取れたカバレッジを確保するための51のドメイン。
- 繰り返されるアイデアを排除するためのセマンティックな重複排除。
- バイアスを軽減するためのGPTモデルを用いたマルチモデル生成。
- 最終的なファインチューニングにはQwen2.5 3B Instructを使用。
データエンジンの仕組み: 多様性を生み出すために複数のモデルを使用しています。GPTモデルが推論とバリエーションを提供します。これにより、コストを低く抑えつつ、多様性を高く保つことができます。
データのクリーニングにはセマンティックフィルタリングを使用します。2つの指示の類似度スコアが0.75を超えた場合、一方を削除します。これにより、モデルが同じパターンに過学習するのを防ぎます。
品質をスコアリングするために、LLMをジャッジ(判定役)として使用します。以下の項目をチェックします:
- 流暢さ
- 関連性
- 完全性
スコアが3.5以上のデータのみがセットに残ります。
ファインチューニングの結果: Google Colab経由で、Qwen2.5 3B InstructモデルにQLoRAを適用しました。QLoRAは全重みの代わりに小さなアダプターをトレーニングします。これにより、高いパフォーマンスを維持しながらメモリを節約できます。
結果には劇的な違いが見られました:
- ベースモデルは、しばしばアラビア語に切り替わってしまいます。
- ファインチューニングされたモデルは、流暢で一貫したペルシャ語を話します。
主な教訓は明確です。モデルのスケールアップよりもデータエンジニアリングの方が重要です。データの質こそが主要なボトルネックなのです。
主な洞察:
- クリーンなデータを得るには、二重のフィルタリングが必要です。
- 構造化されたトピックグラフは、自由なプロンプトよりも効果的です。
- LLMジャッジはシステムの不可欠な要素です。
このシステムは、リソースの少ない言語におけるLLMアライメントのための完全なエンジンです。
オプションの学習コミュニティ: https://t.me/GyaanSetuAi
