Votre facture d'IA n'est pas un problème de modèle. C'est un problème d'architecture.

Si vos coûts de LLM augmentent, vous souhaitez probablement passer à un modèle moins cher. Vous pourriez passer de GPT-4 à GPT-4-mini. Cela aide un peu, mais cela résout rarement le véritable problème.

Le véritable problème réside dans votre flux de travail (workflow). La plupart des gens font passer chaque étape par un LLM. Ils utilisent le raisonnement linguistique pour des tâches qui n'en ont pas besoin.

Chaque flux de travail d'IA se compose de quatre parties :

• Déclencheur (Trigger) : Lance le travail. Le coût est quasi nul. • ML déterministe : Classifie ou évalue les données. C'est peu coûteux. • LLM : Lit, écrit et raisonne. C'est coûteux. • Outil/API : Récupère ou écrit des données. C'est peu coûteux.

L'écart entre le ML déterministe et un LLM est immense. Un LLM peut coûter 100 à 1000 fois plus cher qu'un simple classificateur. Si vous ne choisissez pas le bon outil pour chaque étape, vous utilisez par défaut l'option la plus coûteuse.

Prenons l'exemple d'un système de tickets de support.

Une mauvaise conception envoie l'intégralité du ticket à un LLM. Elle demande au LLM de classifier l'intention, d'aiguiller le ticket, de rédiger une réponse et de mettre à jour le CRM. C'est un surcoût inutile. La classification n'a pas besoin d'un LLM. Elle nécessite un modèle simple pour associer un texte à une catégorie.

Une meilleure conception ressemble à ceci :

  1. Déclencheur : Un ticket arrive.
  2. ML déterministe : Un modèle rapide et peu coûteux décide si le ticket concerne la facturation, la technique ou s'il s'agit d'un spam.
  3. LLM : Utilisé uniquement pour rédiger une réponse pour les tickets valides.
  4. Outil/API : Le système met à jour le CRM.

Dans cette version, les tickets de spam n'atteignent jamais le LLM. Vous cessez de payer la « taxe LLM » sur des tâches inutiles.

Si vous orientez correctement votre architecture, vous éliminez les appels les plus coûteux avant même de changer de modèle.

Suivez ces étapes pour réduire vos coûts :

  • Cartographiez votre flux de travail. Identifiez les étapes qui nécessitent un véritable raisonnement et celles qui ne sont que de la classification ou de l'extraction.
  • Sortez les étapes déterministes du prompt. Utilisez des méthodes plus rapides et moins coûteuses pour l'aiguillage et l'évaluation.
  • Limitez l'accès au LLM. Ne générez pas de réponses pour des tâches qui n'en nécessitent pas.
  • Évaluez la taille du modèle en dernier. Ne choisissez un modèle plus petit pour l'étape de génération qu'une fois votre architecture optimisée.

Arrêtez de débattre pour savoir quel modèle est le moins cher par token. Commencez à construire des architectures qui n'utilisent le moteur coûteux que lorsque cela est nécessaire.

Source: https://dev.to/bakshiyogesh/your-ai-bill-isnt-a-model-problem-its-an-architecture-problem-1ole

Communauté d'apprentissage optionnelle: https://t.me/GyaanSetuAi