GPTは、あなたが思う以上に多くのことができる
GPTモデルは、テキストの扱い方を変えつつあります。
その道のりはGPT-1から始まりました。それは、機械が首尾一貫した文章を書けることを示しました。続いてGPT-2が登場し、これらのモデルがいかに大きな可能性を秘めているかを示しました。そしてGPT-3がやってきました。1750億のパラメータを備えたGPT-3は、モデルが単に文章を補完する以上のことができるのだと証明しました。
その秘密はTransformerアーキテクチャにあります。これは膨大なデータからパターンを学習します。すべてのルールをプログラミングする必要はありません。特定のタスクに合わせてファインチューニングしたり、自然言語を使って指示を出したりすることができます。
しかし、これらのモデルをプロダクション環境で運用するのは困難です。
高いレイテンシはユーザー体験を損なう可能性があります。私たちは64枚のNvidia H100 GPUで大規模なモデルを実行しました。遅延は120msでした。これは私たちのニーズには遅すぎました。そこで、LoRAを使用して、より小さな60億パラメータのモデルに切り替えました。これにより、レイテンシは38msに低下しました。また、毎月3万ドルのコスト削減にもつながりました。コーディングの精度は多少低下しましたが、スピードとコストを考えれば価値のある決断でした。
また、バイアスにも注意しなければなりません。GPTはインターネットからパターンを学習します。つまり、ステレオタイプや事実誤認を繰り返す可能性があるということです。間違っているときでさえ、自信満々に聞こえることがあります。
私たちはこれらのエラーを検知するためのデータパイプラインを構築しました。ルールエンジンを使用して、偏った言語にフラグを立てました。当初、フラグの4%が誤りでした。私たちは小さな検証モデルを追加することでこれを修正しました。これにより、エラー率は1%未満に抑えられました。
コストとエネルギーも大きな障壁です。
大規模なモデルのトレーニングには数百万ドルがかかります。私たちはコストを下げるために量子化(quantization)を使用しています。4ビット量子化を使用することで、トークンあたりのコストを0.00015ドルから0.00004ドルに下げることができました。大規模なSaaS製品の場合、これにより年間300万ドルの節約になります。
未来は効率性へと向かっています。単にモデルを大きくするのではなく、開発者はモデルをよりスマートに、より小さくしようとしています。私たちに必要なのは、高速で、安価で、そして自分が何を知らないかについて正直なモデルです。
これらのツールを賢明に使ってください。その限界を理解しましょう。役に立ち続けるためのガードレールを構築してください。
Source: https://dev.to/lavkeshdwivedi/gpt-does-more-than-you-think-fll
Optional learning community: https://t.me/GyaanSetuAi