OpenAI et Broadcom dévoilent Jalapeño : une puce personnalisée pour l'inférence de LLM
OpenAI dépasse officiellement le stade du logiciel en se lançant dans le silicium personnalisé avec l'annonce de « Jalapeño », un processeur d'intelligence dédié. Développé en partenariat avec Broadcom, cet accélérateur sur mesure est conçu pour optimiser l'inférence des grands modèles de langage (LLM) à une échelle massive.
Une architecture conçue spécifiquement pour les LLM modernes
Contrairement à de nombreuses solutions actuelles qui reposent sur des GPU polyvalents modifiés, Jalapeño est une conception de zéro, spécifiquement élaborée pour répondre aux exigences uniques de l'inférence des LLM. L'objectif est de résoudre les principaux goulots d'étranglement de l'IA moderne : le mouvement des données et la sous-utilisation du matériel. En optimisant l'architecture pour rapprocher l'utilisation de son maximum théorique, OpenAI vise à améliorer considérablement la performance par watt par rapport au matériel de pointe actuel.
Bien qu'OpenAI n'ait pas encore publié de rapport technique finalisé ni de benchmarks indépendants, les premiers tests internes suggèrent des gains d'efficacité substantiels. Des échantillons d'ingénierie sont déjà utilisés dans des environnements de laboratoire pour exécuter des charges de travail complexes d'apprentissage automatique, notamment le modèle GPT-5.3-Codex-Spark — un modèle qui repose actuellement sur le matériel Cerebras pour ses besoins d'inférence.
Une collaboration de poids entre plusieurs entreprises
Le développement de Jalapeño est un effort sophistiqué impliquant plusieurs partenaires et couvrant l'ensemble de la pile matérielle. OpenAI dirige la conception de la puce, s'appuyant sur ses propres modèles d'IA pour accélérer le cycle de développement, qui aurait duré seulement neuf mois entre la conception et le tape-out. Broadcom apporte l'expertise critique en fabrication de silicium et les technologies de réseau avancées, notamment ses puces réseau haute performance Tomahawk. Pour compléter l'écosystème, Celestica est responsable des cartes, des baies et de l'intégration complète du système.
Cette collaboration représente un changement stratégique pour OpenAI, passant d'une entreprise uniquement axée sur les modèles et les produits à une entreprise qui contrôle la pile matérielle sous-jacente. En possédant le silicium, OpenAI peut théoriquement exécuter ses modèles plus rapidement, de manière plus fiable et à un coût bien inférieur à celui de ses concurrents qui dépendent de fournisseurs tiers.
Passer à l'échelle du gigawatt d'ici 2026
La feuille de route de Jalapeño est très ambitieuse. Le PDG de Broadcom, Hock Tan, a indiqué que le premier déploiement est prévu pour la fin de l'année 2026, avec l'intention d'opérer à l'échelle du gigawatt aux côtés de Microsoft et d'autres partenaires stratégiques. L'ampleur de ce déploiement souligne les besoins massifs en infrastructure de l'IA de nouvelle génération.
Des rapports suggèrent que le partenariat inclut des engagements commerciaux importants, Microsoft devant apparemment garantir l'achat de 40 % de la production initiale de puces pour sécuriser la première phase. Ce niveau d'intégration verticale et de demande garantie signale un mouvement majeur vers la stabilisation de la chaîne d'approvisionnement à coût et consommation énergétique élevés, nécessaire pour soutenir la révolution de l'IA.
Points clés à retenir
- Stratégie de silicium personnalisé : Jalapeño est un « processeur d'intelligence » conçu de toutes pièces pour l'inférence de LLM, visant à surpasser le matériel polyvalent en termes de performance par watt.
- Développement rapide : En utilisant ses propres modèles d'IA pour accélérer le processus, OpenAI a réalisé un cycle de neuf mois entre la conception et le tape-out, un record pour les ASIC haute performance.
- Déploiement à grande échelle : Le premier déploiement à grande échelle est prévu pour la fin de l'année 2026 à l'échelle du gigawatt, soutenu par Broadcom et Microsoft.
