ペルシャ語合成データパイプラインの設計

Translated for your language. 原文を読む.

AI-assisted draft.

GyaanSetu Editorial3 時間前2分で読めます

LLMのトレーニングは、もはやモデルの規模を拡大することではなく、データの質のスケールアップにあります。

ほとんどのペルシャ語データセットは構造化されていません。これが原因で、モデルは指示に従うことができなくなります。問題はモデルのサイズではなく、データの不足にあります。

これを解決するために、トピックグラフからQLoRAファインチューニングに至るパイプラインを構築しました。

パイプラインのプロセス：

コア設計ルール：

データエンジンの仕組み：多様性を生み出すために複数のモデルを使用しています。GPTモデルが推論とバリエーションを提供します。これにより、コストを低く抑えつつ、多様性を高く保つことができます。

データのクリーニングにはセマンティックフィルタリングを使用します。2つの指示の類似度スコアが0.75を超えた場合、一方を削除します。これにより、モデルが同じパターンに過学習するのを防ぎます。

品質をスコアリングするために、LLMをジャッジ（判定役）として使用します。以下の項目をチェックします：

スコアが3.5以上のデータのみがセットに残ります。

ファインチューニングの結果： Google Colab経由で、Qwen2.5 3B InstructモデルにQLoRAを適用しました。QLoRAは全重みの代わりに小さなアダプターをトレーニングします。これにより、高いパフォーマンスを維持しながらメモリを節約できます。

結果には劇的な違いが見られました：

主な教訓は明確です。モデルのスケールアップよりもデータエンジニアリングの方が重要です。データの質こそが主要なボトルネックなのです。

主な洞察：

このシステムは、リソースの少ない言語におけるLLMアライメントのための完全なエンジンです。

オプションの学習コミュニティ: https://t.me/GyaanSetuAi

続きを読む