Votre fournisseur d'IA est un point de défaillance unique
Vendredi dernier, le département du Commerce des États-Unis a envoyé une lettre à Anthropic. Dès le soir même, Fable 5 et Mythos 5 ont disparu.
Ils n'ont pas été dépréciés. Ils n'ont pas été bridés. Ils ont tout simplement disparu.
Les appels API renvoyaient des erreurs 404. Les sessions en direct ont échoué en pleine conversation. Les applications dépendant de ces modèles ont cessé de fonctionner. Cela s'est produit trois jours après le lancement. Il n'y a eu ni avertissement ni période de migration.
Nous avons eu de la chance car ces modèles étaient nouveaux. Personne n'avait encore construit de dépendances profondes à leur égard. Imaginez que cela arrive à un modèle que vous utilisez quotidiennement depuis six mois.
Si une lettre du gouvernement pouvait couper votre base de données principale, la feriez-vous fonctionner sans basculement (failover) ? Vous ne le feriez pas. Pourtant, la plupart des équipes font cela avec l'IA.
De nombreuses équipes traitent l'IA comme l'électricité. Vous actionnez un interrupteur et vous attendez de la lumière. Vous ne pensez ni à la source ni à ce qui se passe quand le courant se coupe. Vous choisissez un modèle, vous codez en dur un endpoint, et vous déployez.
Ce n'est pas de l'ingénierie. C'est une architecture basée sur l'espoir.
Les modèles peuvent disparaître en raison de :
- Raisons réglementaires
- Changements de politique
- Enjeux géopolitiques
La situation d'Anthropic n'était pas un bug ou une défaillance d'infrastructure. C'était un interrupteur d'arrêt réglementaire (regulatory kill switch).
Vous devez intégrer de la résilience dans votre couche de modèles. Utilisez ces patterns :
- Abstraisez vos appels de modèles. Utilisez une interface pour que votre application ne se soucie pas du fournisseur qui fournit la réponse.
- Utilisez plusieurs fournisseurs. Changer de fournisseur devrait être un simple changement de configuration, pas une réécriture totale.
- Utilisez des modèles à poids ouverts (open-weight). Si vous exécutez le modèle vous-même, personne ne peut l'éteindre à distance. Ces modèles agissent comme un groupe électrogène lorsque le réseau tombe en panne.
- Implémentez une dégradation gracieuse. Un modèle plus petit ou plus ancien vaut mieux qu'une application en panne.
Surveillez vos taux d'erreur. S'ils augmentent brusquement, faites sauter le disjoncteur et redirigez le trafic vers votre solution de secours (fallback).
Traitez votre IA comme n'importe quelle autre dépendance de production critique. Concevez pour la défaillance.
Votre architecture part-elle du principe que votre fournisseur peut échouer ? Si ce n'est pas le cas, vous courez un risque.
Avez-vous intégré un basculement multi-fournisseurs dans votre stack ? Dites-le-moi dans les commentaires.
Source : https://dev.to/aws/your-ai-provider-is-a-single-point-of-failure-26i2
Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi