Veille IA #6 : ce qu'il fallait retenir du 5 au 11 avril 2026
Veille IA #6
Semaine courte en volume, dense en substance. Deux sujets dominent cette édition : Anthropic franchit un cap inédit en refusant de déployer un modèle frontier jugé trop dangereux pour une diffusion large, et des chercheurs démontrent que les routeurs LLM — ces proxies devenus courants dans les pipelines d’agents — peuvent être des vecteurs d’attaque à part entière.
Outils
Project Glasswing / Claude Mythos Preview — Anthropic, 7 avril 2026
C’est la première fois qu’un grand laboratoire rend publiquement visible un modèle qu’il choisit délibérément de ne pas déployer. Anthropic a annoncé le 7 avril l’existence de Claude Mythos Preview, issu du projet interne Glasswing, en expliquant pourquoi il reste hors de portée du public.
Le constat : lors des évaluations internes, le modèle a découvert de manière autonome des milliers de zero-days dans l’ensemble des systèmes d’exploitation et navigateurs majeurs testés. Parmi eux, la CVE-2026-4747 affectant FreeBSD — une vulnérabilité dormante depuis dix-sept ans — et plusieurs failles dans FFmpeg. La capacité offensive est jugée trop élevée pour un déploiement général.
L’accès est restreint à une cinquantaine de partenaires industriels (AWS, Apple, Google, Microsoft, NVIDIA, Linux Foundation) dans le cadre d’un programme de divulgation et correction coordonné, avant toute diffusion éventuelle.
Ce qui rend ce cas structurant, au-delà de l’anecdote : c’est la première fois qu’un critère de dangerosité cybersécurité documenté et non contesté devient la raison officielle d’un non-lancement. Jusqu’ici, les laboratoires communiquaient sur des délais, des évaluations en cours, ou des politiques de déploiement progressif. Ici, la menace est nommée, illustrée par des CVE réels, et la décision est assumée publiquement.
Sources : anthropic.com/glasswing · red.anthropic.com/2026/mythos-preview · TechCrunch
L’interprétabilité comme prérequis opérationnel — Anthropic, 7 avril 2026
En parallèle de l’annonce Glasswing, Jack Lindsey (Anthropic) publie les résultats de l’analyse mécanistique interne de Mythos conduite avant le limited-release. L’équipe a identifié et audité les circuits de raisonnement offensif du modèle : c’est ce travail d’interprétabilité qui a permis de qualifier le niveau de risque.
Le signal est important pour quiconque suit le champ de la sécurité IA : l’interprétabilité n’est plus présentée ici comme un programme de recherche amont, mais comme un prérequis opérationnel au lancement. La décision de ne pas déployer Mythos repose en partie sur la capacité à lire ce que le modèle fait réellement, pas uniquement sur ses outputs observés.
Pour les équipes qui déploient des agents LLM en production, cela pose une question concrète : dans quelle mesure peut-on auditer le raisonnement d’un modèle avant de lui confier des outils à fort impact ?
Source : tweet de @Jack_W_Lindsey · TechCrunch
Recherche
Les routeurs LLM comme vecteur d’attaque supply chain
Le problème en une phrase : vous configurez un proxy LLM tiers pour router vos appels API vers différents modèles, et ce proxy peut lire, modifier ou exfiltrer tout ce qui passe par lui — y compris les credentials et les clés de wallet.
Ce que montrent les chercheurs (UC Santa Barbara, révélé le 10 avril) : 26 routeurs LLM API ont été analysés. Tous permettent à l’opérateur du routeur d’injecter des tool calls malveillants dans les réponses, à l’insu du développeur ou de l’utilisateur final. Ces proxies sont configurés volontairement comme endpoint — ce n’est pas une intrusion classique, c’est un man-in-the-middle légitime du point de vue réseau, rendu possible par la confiance accordée au routeur.
Le cas documenté : 500 000 dollars drainés via ce vecteur sur un pipeline agent en production. Le routeur interprète les réponses du modèle, injecte des appels d’outils supplémentaires, et exfiltre les données en clair.
Pourquoi c’est important maintenant : les routeurs LLM sont devenus un composant standard dans les architectures multi-modèles. Ils sont souvent choisis pour des raisons de coût ou de flexibilité, sans évaluation de sécurité spécifique. Cette recherche montre que la surface d’attaque n’est pas dans le modèle lui-même, mais dans l’infrastructure de routage — un angle mort fréquent.
Ce qui est actionnable immédiatement : auditer tous les routeurs LLM tiers présents dans vos pipelines agents. Vérifier quelles données transitent en clair. Évaluer si le routeur a accès aux tool calls et aux réponses complètes.
Sources : cybersecuritynews.com · tweet de @Fried_rice
Signal à surveiller
Axios rapporte qu’OpenAI prépare un produit cybersécurité en réponse directe à Project Glasswing. Rien de concret à date, mais la dynamique est claire : la capacité offensive des modèles frontier devient un terrain de compétition explicite entre laboratoires. axios.com
Conclusion
Cette semaine illustre une bascule progressive : la dangerosité des modèles frontier n’est plus un sujet théorique réservé aux chercheurs en sécurité IA. Elle produit des CVE, des décisions de non-lancement assumées publiquement, et des pertes financières documentées dans des pipelines de production. Pour un lecteur technique, les deux chantiers à prioriser sont les mêmes : comprendre ce que font réellement les modèles qu’on déploie, et sécuriser l’infrastructure qui les entoure.