日常業務に、最も高度なAIは本当に必要ですか？

Machine-translated. Read the original.

📅2 hours ago⏱1 min read

日常業務に最も高度なAIは本当に必要か？

毎週のように新しいAIモデルが登場します。ベンチマークやコーディングスコアについて議論が交わされ、誰もが熱狂します。

しかし、私は別の問いを立てるようになりました。日常的なタスクに、本当に最も高度なモデルが必要なのでしょうか？

最近、これをテストしてみました。コードのリファクタリングタスクにおいて、2つのモデルを比較したのです。

Haikuは5.7倍安価でした。高価なモデルが勝つだろうと予想していましたが、結果は違いました。

Haikuの方が優れた結果を出しました。コードを3つのクリーンなファイルに分割し、Sonnetよりも私たちのコーディング規約を忠実に守っていました。より安価で、より効果的だったのです。

大規模で高価だからといって、優れているとは限りません。

モデルの能力はプロセスの一部に過ぎません。私はより良い結果を得るために、AI開発ハーネス（harness）を使用しています。このハーネスには以下が含まれます：

• リポジトリ固有の指示 • コーディング規約 • アーキテクチャのガイダンス • 開発ワークフロー • プロジェクトのコンテキスト • レビューの期待値

これらのガードレールを構築すれば、小型モデルのパフォーマンスは向上します。モデルが「良いコードとは何か」を推測する必要はありません。環境がそれを指示するからです。

ほとんどのエンジニアリングタスクは、研究課題ではありません。リファクタリング、テストの作成、ドキュメント作成といったタスクに、巨大なモデルは必要ありません。

どのモデルが最高のベンチマークを記録しているか、と問うのはやめましょう。代わりに、次の問いを立ててみてください：

問題を解決できる、最も安価なモデルを使用してください。

AI業界は「知能」に焦点を当てていますが、あなたは「ハーネスの品質」に焦点を当てるべきです。適切なコンテキストを与えれば、5.7倍安価なモデルの方が優れた結果をもたらすこともあるのです。

Optional learning community: https://t.me/GyaanSetuAi

Continue reading