Les ingénieurs en IA commencent à tourner le dos à NVIDIA

Alors que NVIDIA domine insolentement le marché de l’intelligence artificielle, les coûts d’exploitation liés à la consommation électrique et au refroidissement poussent les ingénieurs à se tourner vers des solutions alternatives. Ce basculement vers des puces personnalisées, plus rentables pour l’exécution des modèles, menace directement l’hégémonie du géant californien.

ingénieurs ia tournent le dos à nvidia

Selon une note publiée par la banque d’investissement Evercore ISI, NVIDIA pourrait perdre du terrain auprès des ingénieurs spécialisés en intelligence artificielle. En cause : les coûts liés à la consommation électrique et au refroidissement de ses puces, qui poussent certains grands acteurs du secteur à se tourner vers des alternatives.

Le coût total d’utilisation au cœur des débats

Le PDG de NVIDIA, Jensen Huang, a régulièrement défendu le positionnement tarifaire de ses produits en mettant en avant leur efficacité en termes de performance par watt. Une note récente de Morgan Stanley allait dans ce sens, estimant que si la construction d’un centre de données équipé de GPU Blackwell revenait deux fois plus cher qu’avec des puces personnalisées, ces mêmes GPU offraient jusqu’à huit fois plus de performance par watt.

Mais Evercore apporte une nuance importante : les ingénieurs en IA ne se limitent pas à ce seul critère. D’après les témoignages recueillis auprès de professionnels travaillant pour des hyperscalers, ces entreprises qui exploitent des infrastructures cloud à très grande échelle, d’autres paramètres entrent en ligne de compte, notamment les coûts de refroidissement et la consommation énergétique globale des installations.

Le passage à l’inférence change les priorités

Evercore souligne qu’un changement structurel est en cours dans le secteur : le passage d’un modèle centré sur l’entraînement des modèles d’IA vers un modèle dominé par l’inférence, c’est-à-dire l’utilisation concrète de ces modèles pour générer des résultats. Ce glissement modifie les critères d’achat. Là où l’on privilégiait autrefois le débit maximal et la bande passante mémoire, on regarde désormais davantage le coût par token généré, la consommation électrique, les besoins en refroidissement, le taux d’utilisation des puces et le coût total de possession.

architectures nvidia

Un expert de Nebius, fournisseur d’infrastructure de calcul pour l’IA, cité dans le rapport, confirme cette tendance. Selon lui, l’inférence représenterait jusqu’à 95 % des cas d’usage en entreprise, et les GPU sont de plus en plus évalués à l’aune du coût par million de tokens produits.

Les marges de NVIDIA perçues comme excessives

Evercore note également que l’argument mis en avant par NVIDIA, selon lequel ses puces offriraient des gains de performance de l’ordre de 35 fois par rapport à certaines alternatives, ne convainc pas une large partie des ingénieurs. Ces derniers estiment par ailleurs que les marges brutes de NVIDIA, qui avoisinent les 70 %, sont trop élevées. Dans ce contexte, selon la banque, beaucoup d’ingénieurs se montrent disposés à recourir à des puces ASIC développées en interne par les entreprises, ou à des solutions jugées « suffisamment bonnes », dans le but d’améliorer leur rentabilité.

Les puces de Groq sont notamment citées comme une alternative appréciée pour leur débit élevé lors des opérations d’inférence.

Une pression croissante sur le modèle de NVIDIA

Cette analyse d’Evercore s’inscrit dans un contexte plus large où les grands acteurs du cloud, comme Google, Amazon ou Meta, investissent massivement dans le développement de leurs propres accélérateurs. Si NVIDIA reste un acteur central du marché des puces pour l’IA, la multiplication des alternatives et l’évolution des besoins des utilisateurs pourraient, selon les analystes, peser sur sa position dominante à moyen terme.