Les puces d'inférence : entre généralisation et spécialisation

By Meier Link March 25, 2026

Le week-end dernier, j'ai vu deux actus d'un genre qui ne devrait pas nous laisser indifférent... Des situations de monopole comme celle de NVIDIA ne tiendront pas éternellement, comme Milton Friedman le prévoyait.

Les puces d'inférence : entre généralisation et spécialisation

Introduction – Quand le monopole se fissure
Le monopole selon Milton Friedman
NVIDIA face aux hyperscalers et à Terafab : généralistes contre spécialistes
ASML : le contre‑exemple d’un monopole qui tient
Conclusion – Le monopole, une photographie plutôt qu’un destin
Références

Introduction – Quand le monopole se fissure

Depuis deux ans, NVIDIA est devenu l’icône absolue de l’IA générative, au point d’incarner à lui seul l’accélérateur de calcul moderne. Ses GPU équipent les clusters de Google, Microsoft, Amazon, Meta, OpenAI, et une bonne partie des startups qui comptent. Mais la carte est en train de se retourner : Des articles comme celui de Business Insider montrent que les mêmes clients qui ont fait sa gloire sont désormais ses principaux concurrents, en investissant massivement dans leurs propres puces spécialisées (TPU, Trainium, Maia, MTIA, etc.).

Le mouvement s’accélère en 2026. Les hyperscalers déploient à grande échelle des ASIC maison pour l’inférence, avec des gains de coût par jeton de l’ordre de 3 à 5x par rapport aux GPU généralistes, au point que certains analystes anticipent une chute de la part de marché de NVIDIA sur l’inférence de plus de 90% aujourd’hui à 20–30% à l’horizon 2028. Parallèlement, Broadcom impose ses services de conception de puces sur mesure et pourrait contrôler 60% du marché des ASIC pour serveurs IA dès l’an prochain, avec une trajectoire d’« AI revenue » potentiellement supérieure à 100 milliards de dollars en 2027.

C’est dans ce contexte que s’inscrit l’annonce de Terafab par Elon Musk : une méga‑fonderie à 25 milliards de dollars à Austin, portée conjointement par Tesla, SpaceX et xAI, capable de produire jusqu’à un million de wafers 2 nm (base à partir de làquelle sont fabriqués les circuits intégrés) par mois et visant à délivrer l’équivalent d’un térawatt de puissance de calcul IA par an. Musk ambitionne de réserver 80% de cette capacité à des centres de données spatiaux alimentés par des panneaux solaires en orbite, mais l’enjeu stratégique est plus prosaïque : internaliser la fabrication de puces avancées et réduire la dépendance à NVIDIA (et à TSMC), exactement le même réflexe que les hyperscalers, porté à son paroxysme.

A priori, tout cela ressemble au début de la fin d’un monopole. Mais si l’on se place dans la perspective de Milton Friedman, tous les monopoles ne se ressemblent pas – et tous ne sont pas appelés à disparaître. C’est toute la nuance entre le cas NVIDIA, déjà contesté, et celui d’ASML, qui maintient depuis plus de trente ans un quasi‑monopole sur une technologie critique de la chaîne des semi‑conducteurs.

Le monopole selon Milton Friedman

Dans « Capitalism and Freedom », Milton Friedman insiste sur un point simple : ce qui pose problème dans un monopole n’est pas d’abord la taille de l’entreprise, mais la limitation des alternatives pour les individus, c’est‑à‑dire la réduction de la liberté d’échanger. Un monopole devient problématique lorsqu’il ferme durablement le marché, au point que les consommateurs ou les producteurs n’ont plus de choix crédibles.

Friedman distingue schématiquement trois sources de monopole :

le monopole technique : lorsque, pour des raisons de coûts fixes et d’échelle, un seul acteur peut opérer efficacement (électricité, réseau ferroviaire, etc.) ;
le monopole soutenu par l’État : privilèges légaux, protections réglementaires, concessions exclusives ;
le monopole de collusion privée : accords entre firmes pour restreindre l’entrée ou coordonner les prix.

Sa thèse, est qu’en l’absence de barrières réglementaires, la dynamique concurrentielle, l’innovation et le changement de technologie tendent à éroder les positions dominantes. C’est ce qu’on voit à l’œuvre dans l’IA : NVIDIA ne se fait pas attaquer par un « petit concurrent » sur son propre terrain, mais par un changement de modèle – le passage de GPU généralistes à ASIC propriétaires – qui modifie les règles du jeu.

Autre point important chez Friedman : il différencie la concentration de marché (un acteur peut être très gros) de la coercition. Tant qu’un monopole repose sur la satisfaction volontaire de clients qui peuvent migrer s’ils trouvent mieux, la solution passe d’abord par l’ouverture du champ concurrentiel, non par une punition de la taille en tant que telle. La question clé devient alors : les concurrents ont‑ils réellement la possibilité d’entrer ? Dans l’IA, la réponse est en train de basculer de « non » à « oui, mais avec des moyens colossaux ».

NVIDIA face aux hyperscalers et à Terafab : généralistes contre spécialistes

Le cœur de la proposition de NVIDIA

Techniquement, NVIDIA vend des GPU, des processeurs massivement parallèles initialement conçus pour le rendu graphique. Depuis l’ère Volta, ils sont optimisés pour les calculs de tenseurs : ce sont des outils mathématiques universels, qui peuvent être utilisés autant pour l’IA que pour le rendu graphique, ou d’autres applications de calcul matriciel (simulation météo, recherche médical, etc.). Pour faire simple, un tenseur est une sorte de tableau à plusieurs dimensions, contenant des nombres, idéal pour la vectorisation, dont nous avons parlé dans l’un de mes articles précédents (Lien Substack). Les générations qui suivirent (Blackwell et Vera Rubin) persistent d’ailleurs dans la même direction.

La seconde partie du « monopole » NVIDIA est logicielle : CUDA, un écosystème de compilation, des bibliothèques et des outils fédérant les développeurs autour des frameworks majeurs (outils pour faciliter les développements) dans lesquels CUDA est intégré. Ceci donne à NVIDIA un avantage énorme : tout nouveau modèle, toute nouvelle bibliothèque arrive d’abord sur GPU NVIDIA, les autres architectures suivent – parfois.

Enfin, comme nous l’avons vu dans mon précédent article sur l’industrialisation de l’IA, NVIDIA propose des solutions intégrées pour concevoir et exploiter une AI Factory, créant de facto une dépendance encore plus forte des acteurs engagés avec NVIDIA.

Les ASIC des hyperscalers : l’inférence comme angle d’attaque

Les hyperscalers ont choisi un axe d’attaque précis : l’inférence. D’après un article de Insider Finance de janvier 2026, environ deux tiers des cycles de calcul IA sont consacrés à faire tourner des modèles déjà entraînés en 2026, souvent sur des architectures relativement stables (Transformers, variantes de LLM, systèmes de recommandation).

Là où NVIDIA propose des GPU généralistes, les hyperscalers développent des ASIC : signifiant « Application‑Specific Integrated Circuits », ce sont des puces taillées pour une famille de modèles et de patterns d’inférence très précise. Ainsi, Google, AWS, Microsoft, Meta, xAI, … développent ou vont développer leurs propres puces. Par exemple, AWS revendique jusqu’à 50% d’économie, par rapport à des GPU équivalents à leur puces Trainium 3, tel que rapporté par Business Insider à mi-mars 2026.

Dans cette logique, la contrainte n’est plus de pouvoir tout faire, mais d’optimiser quelques opérations clés (matrices d’attention, couches feed‑forward, sampling) en supprimant tout ce qui n’est pas strictement nécessaire – ce qui donne souvent 3 à 5x de gains d’efficacité énergétique pour les charges visées. Midjourney, par exemple, a réduit sa facture mensuelle de calcul de 2,1 M$ à 700 000 $ en migrant une partie de ses inférences de GPU NVIDIA vers des TPU Google, soit 65% d’économie.

Terafab : Musk change de rôle dans la chaîne

Terafab s’inscrit dans cette mutation, mais sur un autre maillon de la chaîne : celui de la fabrication. Là où les hyperscalers restent pour l’instant designers de puces (la production étant assurée par TSMC), Musk annonce une fonderie intégrée 2 nm, couvrant design, fabrication et packaging avancé sous un même toit, avec un objectif d’un million de wafers 2 nm par mois à terme. Si vous voulez en savoir plus sur l’énorme projet d’Elon Musk, je vous invite à jeter un œil aux articles de Hyper Beast et Fortune en référence.

Les objectifs officiels sont d’alimenter :

la flotte de robots et véhicules de Tesla (Autopilot, Optimus, etc.) ;
les besoins IA de xAI ;
des data centers orbitaux pour SpaceX, alimentés par des panneaux solaires en orbite et reliés à la Terre par des liaisons laser.

Stratégiquement, le message est clair : comme Google, Amazon ou Meta, Musk cherche à réduire sa dépendance vis‑à‑vis de NVIDIA, mais aussi vis‑à‑vis de TSMC. Si Terafab atteint ses objectifs, il devient non seulement un client en moins pour NVIDIA, mais potentiellement un nouveau concurrent sur certaines classes de puces pour l’IA et la robotique.

GPU vs ASIC : généraliste contre spécialiste

Vu sous l’angle de Milton Friedman, ce basculement est presque un cas d’école : les clients « captifs » d’un fournisseur dominant (NVIDIA) ont suffisamment d’échelle pour internaliser la fonction, construire un substitut plus efficace pour leurs besoins spécifiques, et réintroduire de la concurrence sur un marché qui tendait à se fermer, et ce par le cumul de la technologie et de l’effet réseau logiciel.

ASML : le contre‑exemple d’un monopole qui tient

À l’autre bout de la chaîne, ASML illustre une situation presque inverse : un quasi‑monopole qui tient depuis plus de trente ans sur une technologie ultra‑critique, les équipements de lithographie, sans qu’un concurrent crédible soit parvenu à le déloger.

ASML fabrique les machines EUV (Extreme Ultraviolet) utilisées par TSMC, Samsung ou Intel pour graver les puces les plus avancées, notamment celles dont nous parlons plus haut (3 nm, bientôt 2 nm). Chaque machine est un monstre d’ingénierie : des dizaines de milliers de pièces, des miroirs d’une précision atomique, des sources lumineuses générées par lasers sur gouttes d’étain, le tout pour des tickets entre 150 et 300 millions de dollars l’unité selon les générations.

Pourquoi ce monopole tient‑il, là où celui de NVIDIA est déjà contesté ?

Barrières technologiques extrêmes : il a fallu des décennies de R&D, des consortiums industriels et des milliards d’euros pour rendre l’EUV commercialement viable. La barrière d’entrée n’est pas seulement financière mais aussi organisationnelle (chaîne de fournisseurs hyper‑spécialisés, savoir‑faire accumulé, etc.).
Clientèle concentrée mais captive : TSMC, Samsung, Intel n’ont pas d’alternative sérieuse pour fabriquer des puces avancées ; même la Chine, malgré des efforts colossaux, reste cantonnée à des nœuds plus anciens faute d’accès à cette techno.
Protection réglementaire indirecte : les restrictions d’exportation occidentales sur certaines générations de machines EUV vers la Chine renforcent paradoxalement la position d’ASML, en limitant la possibilité qu’un concurrent émergent (chinois ou autre) atteigne rapidement une taille critique.

Dans les termes de Friedman, on serait proche d’un monopole technique : la structure des coûts et de la science sous‑jacente rend économiquement rationnel le fait qu’un seul acteur opère au sommet de la courbe technologique. On y ajoute cependant un habillage géopolitique, avec des contraintes réglementaires, qui renforce encore les barrières.

Cette configuration est très différente de celle de NVIDIA :

NVIDIA vend des composants finaux, soumis directement à la pression de leurs grands clients qui peuvent décider d’investir en interne.
ASML vend un équipement de production indispensable à ces mêmes clients ; ceux‑ci n’ont ni l’envie ni, pour la plupart, la capacité de recréer cette brique en interne – ce serait se disperser dans un domaine où ils n’ont pas d’avantage comparatif.

On se retrouve donc avec un monopole qui dure, non pas malgré le marché, mais en large partie à cause de la structure même du marché et des contraintes physiques de la technologie.

Conclusion – Le monopole, une photographie plutôt qu’un destin

Revenons à NVIDIA, Terafab et aux ASIC des hyperscalers, vue à travers le prisme de Friedman. NVIDIA a construit une position quasi‑monopolistique à la croisée de trois éléments : avance technologique sur le GPU, écosystème logiciel et dépendance de clients géants qui ont préféré externaliser leur besoin de calcul plutôt que d’investir eux‑mêmes. Pendant quelques années, cette configuration a réellement limité les alternatives crédibles, notamment pour l’inférence.

Mais dès lors que la taille de ces clients atteint une masse critique, le calcul de Friedman se renverse : l’investissement fixe colossal dans des ASIC devient rationnel, les alternatives commencent à exister et le « monopole » NVIDIA cesse d’être structurel pour devenir conjoncturel. Les projections, de Insider Finance, qui voient la part de NVIDIA sur l’inférence descendre vers 20–30% d’ici la fin de la décennie, sont l’expression de cette dynamique. Broadcom, avec une part projetée de 60% sur les ASIC IA de data center et des revenus IA qui pourraient dépasser les 100 milliards en 2027, symbolise l’émergence de nouveaux pôles de pouvoir dans cette chaîne.

Terafab s’inscrit dans ce mouvement comme une tentative extrême de verticalisation : quand la dépendance à un fournisseur (NVIDIA, TSMC, voire ASML) devient perçue comme un risque stratégique, certains acteurs choisissent d’intégrer des pans entiers de la chaîne de valeur, quitte à prendre des paris industriels démesurés. Cette logique n’abolit pas les monopoles (ASML en est la preuve vivante), mais elle les relocalise : là où l’on croyait que le verrou se situait au niveau des GPU, on découvre qu’il se trouve peut‑être davantage du côté des fonderies de processeurs ou des équipements de lithographie.

Au fond, la leçon de Milton Friedman appliquée à NVIDIA est double.

Dans les secteurs très innovants, le monopole est souvent un instantané plus qu’un destin – dès que les clients ont les moyens de créer des substituts, la position dominante devient une invitation à la contestation.
Dans les secteurs où les barrières sont physiques, scientifiques et institutionnelles (ASML, dans une certaine mesure TSMC), le monopole peut durer, mais il ressemble alors moins à une rente abusive qu’à la conséquence d’un pari technologique gagné sur le très long terme.

Pour NVIDIA, la décennie qui s’ouvre sera probablement celle du passage d’un quasi‑monopole à un rôle de « super‑fournisseur » parmi d’autres, concentré sur l’entraînement et sur les workloads les plus flexibles. Si Friedman a raison, la vraie question n’est pas de savoir si NVIDIA conservera 90% de part de marché, mais si les utilisateurs d’IA disposeront d’assez d’alternatives – GPU concurrents, ASIC hyperscaler, peut‑être un jour puces Terafab – pour que la liberté de choisir reste intacte. Pour l’instant, tout indique que la réponse est en train de redevenir « oui ».

Références

#ia #intelligence artificielle #nvidia #concurrence #Économie

No comments yet.

Les puces d'inférence : entre généralisation et spécialisation

§Introduction – Quand le monopole se fissure

§Le monopole selon Milton Friedman

§NVIDIA face aux hyperscalers et à Terafab : généralistes contre spécialistes

§Le cœur de la proposition de NVIDIA

§Les ASIC des hyperscalers : l’inférence comme angle d’attaque

§Terafab : Musk change de rôle dans la chaîne

§GPU vs ASIC : généraliste contre spécialiste

§ASML : le contre‑exemple d’un monopole qui tient

§Conclusion – Le monopole, une photographie plutôt qu’un destin

§Références

Comment est déterminé le prix

Qu’est-ce que le marché ?

L'écologie librement consentie