L'effondrement des prix de 10x est un pari sur l'architecture

Les ingénieurs passent des heures à réécrire des prompts pour économiser quelques tokens. Cet effort est souvent vain.

Les tokens ne sont pas gratuits, mais le coût de l'IA chute trop rapidement. Le coût pour un niveau spécifique de performance de l'IA diminue d'environ 10x chaque année. C'est ce qu'on appelle la « LLMflation ».

Les données montrent que cette tendance est réelle :

  • La qualité de niveau GPT-3 coûtait 60 $ par million de tokens en 2021.
  • Elle coûte désormais environ 0,06 $ en utilisant Llama 3.2 3B.
  • Cela représente une chute de 1 000x en trois ans.
  • Les coûts pour une qualité de niveau GPT-3.5 ont chuté de 280x en seulement 18 mois.

Les modèles de pointe (frontier models) restent chers. Mais les modèles que vous utilisez pour des tâches standard voient leurs prix s'effondrer. Si vous optimisez pour les prix d'aujourd'hui, vous optimisez pour un chiffre qui disparaîtra dans quelques mois.

Ne vous concentrez pas sur les astuces de prompt. Concentrez-vous sur l'architecture.

Suivez ces trois règles pour gagner :

• Considérez le modèle comme un composant. Utilisez une interface unique pour les entrées et les sorties. Ne codez pas de modèles spécifiques en dur dans votre application. Cela vous permet de changer de modèle via une simple modification de configuration.

• Construisez d'abord un dispositif d'évaluation (evaluation harness). Vous avez besoin d'un ensemble de tests pour prouver qu'un nouveau modèle, moins cher, fonctionne aussi bien que l'ancien. Sans tests, vous resterez bloqué sur des modèles coûteux par peur de tout casser.

• Investissez dans ce qui ne devient pas moins cher. La qualité de vos données, vos systèmes de récupération (retrieval systems), vos garde-fous (guardrails) et votre expérience utilisateur ne voient pas leur prix chuter de 10x par an. Seul le modèle le fait.

Arrêtez le fine-tuning pour la capacité brute. Le fine-tuning est un pari contre la courbe. Vous enfermez vos données et votre infrastructure dans un modèle spécifique. Lorsqu'un nouveau modèle de base arrive, votre modèle fine-tuné devient une relique coûteuse. Ne faites du fine-tuning que pour ce qui reste constant, comme le ton spécifique de votre marque ou vos formats de données uniques.

La stratégie gagnante consiste à construire un système qui rend le changement de modèle trivial. Arrêtez de compter les tokens. Concevez votre produit pour qu'il profite de la courbe de baisse des prix.

Source : https://dev.to/aiexplore369zoho/the-10x-a-year-price-collapse-is-an-architecture-bet-not-a-prompt-trick-49df

Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi