日常業務に最も高度なAIは本当に必要か?
毎週のように新しいAIモデルが登場します。ベンチマークやコーディングスコアについて議論が交わされ、誰もが熱狂します。
しかし、私は別の問いを立てるようになりました。日常的なタスクに、本当に最も高度なモデルが必要なのでしょうか?
最近、これをテストしてみました。コードのリファクタリングタスクにおいて、2つのモデルを比較したのです。
- Sonnetのコストは76.1クレジットでした。
- Haikuのコストは13.3クレジットでした。
Haikuは5.7倍安価でした。高価なモデルが勝つだろうと予想していましたが、結果は違いました。
Haikuの方が優れた結果を出しました。コードを3つのクリーンなファイルに分割し、Sonnetよりも私たちのコーディング規約を忠実に守っていました。より安価で、より効果的だったのです。
大規模で高価だからといって、優れているとは限りません。
モデルの能力はプロセスの一部に過ぎません。私はより良い結果を得るために、AI開発ハーネス(harness)を使用しています。このハーネスには以下が含まれます:
• リポジトリ固有の指示 • コーディング規約 • アーキテクチャのガイダンス • 開発ワークフロー • プロジェクトのコンテキスト • レビューの期待値
これらのガードレールを構築すれば、小型モデルのパフォーマンスは向上します。モデルが「良いコードとは何か」を推測する必要はありません。環境がそれを指示するからです。
ほとんどのエンジニアリングタスクは、研究課題ではありません。リファクタリング、テストの作成、ドキュメント作成といったタスクに、巨大なモデルは必要ありません。
どのモデルが最高のベンチマークを記録しているか、と問うのはやめましょう。代わりに、次の問いを立ててみてください:
- タスクは完了したか?
- 結果はメンテナンスしやすいか?
- プロジェクトの規約に従っているか?
- コストに見合う価値があったか?
- チームはこれを安価にスケールできるか?
問題を解決できる、最も安価なモデルを使用してください。
AI業界は「知能」に焦点を当てていますが、あなたは「ハーネスの品質」に焦点を当てるべきです。適切なコンテキストを与えれば、5.7倍安価なモデルの方が優れた結果をもたらすこともあるのです。
Optional learning community: https://t.me/GyaanSetuAi