Les fondamentaux de l'IA générative
- Emergence de l’IA : Des règles formelles aux données statistiques
- Mécanismes et similitudes avec le cerveau humain
- Traitement du langage
- Temps présent : Le règne de l’IA générative
- Ressources
Vous me trouverez peut-être un peu trop curieux, mais tant pis. Quand je m’intéresse à un sujet, j’aime bien l’étudier sous toutes les coutures et creuser (vraiment) très profondément. Appliquer cet exercice à l’Intelligence Artificielle nous amène à nous intéresser à la biologie, aux mathématiques, à la logique, un peu d’histoire,… Bref, plein de belles perspectives.
Dans ce petit article, nous n’iront pas dans les tréfonds de l’intelligence humaine pour comprendre celle de Chat GPT, mais nous ferons un petit tour d’horizon qui, je l’espère, vous apportera un nouveau regard sur cet étrange phénomène qui est en train de remettre en question tout notre quotidien.
Emergence de l’IA : Des règles formelles aux données statistiques
L’Intelligence Artificielle est un concept qui ne date pas de 2022 et la révolution de ChatGPT 3.5. En fait, l’expression même « Intelligence Artificielle » remonte à une conférence ayant eu lieu à Darmouth (au New Hampshire) en 1956. Cette conférence avait rassemblé nombre de pionniers des théories de l’informations comme John McCarthy, Marvin Minsky, Nathaniel Rochester et Claude Shannon. Ces derniers ont alors organisé un atelier… au cours duquel le terme sera créé.
« Intelligence Artificielle » désigne alors un concept de neurone virtuel reproduisant quelques principes de base du neurone biologique, comme la traduction d’informations reçus depuis une ou plusieurs entrées vers une sortie unique.

Pourtant, nous sommes loin de ce que nous connaissons aujourd’hui : jusqu’aux années 1990, ces IA appliquaient des règles rigides au traitement des informations reçues. Aujourd’hui, les IA appliquent des principes qui ont émergés aux années 90, notamment avec internet, et les quantités invraisemblables de données qui s’y sont retrouvées.
Le premier mécanisme clé est ce qu’on appelle la rétro-propagation (popularisé dès 1986) : une IA est capable d’apprendre de ses expériences, en « rétro » propageant les résultats sur l’ensemble de son réseau de neurones. Ensuite, L’internet a donné accès à ces modèles à des volumes de données colossaux, qu’ils vont traiter de manière statistique : Ce ne sont plus des instructions spécifiques qui vont piloter les opérations à l’intérieur de l’IA, mais une analyse minutieuse des données disponibles ; c’est sur cette base que les IA modernes déterminent ce qui est attendu d’eux et ce qu’elles doivent faire.
Les résultats paraissent timides, avec les yeux d’aujourd’hui, mais étaient impressionnants, à une époque où il paraissait impensable de reproduire le fonctionnement du cerveau humain :
- 1997 : Deep Blue vs Kasparov. L’ordinateur d’IBM bat le champion du monde d’échecs. C’est la preuve de la puissance de la force brute de calcul alliée à des algorithmes de recherche.
- 2011 : IBM Watson. Gagne au jeu télévisé Jeopardy!, démontrant une capacité avancée à comprendre le langage naturel (questions complexes et jeux de mots).
- 2012 : AlexNet. Lors de la compétition ImageNet, un réseau de neurones convolutifs (CNN) écrase la concurrence dans la reconnaissance d’images (même si elles confondaient encore des chiens avec des cookies, à l’époque).
- 2016 : AlphaGo. L’IA de Google DeepMind bat Lee Sedol au jeu de Go. Contrairement aux échecs, le Go nécessite une forme d’ « intuition » que l’IA a apprise seule en jouant contre elle-même (après entraînement sur des parties de joueurs humains).
Concrètement, l’innovation des années 2000-2010, en Intelligence Artificielle, est le mode de fonctionnement général encore utilisé aujourd’hui : dans un premier temps, le modèle est entraîné sur une base de donnée aussi conséquente que possible (la « Big Data ») et dans un second temps, le modèle est utilisé pour interpréter et traiter des demandes en langage naturel, ce qu’on appelle l’inférence.
L’année 2017 va également apporter une révolution majeure, importante pour comprendre les modèles d’IA qui boulversent notre quotidien. Un article publié dans arXive va introduire le Transformer : il s’agit d’un mécanisme d’attention, qui permet au modèle de comprendre les relations entre tous les mots d’une phrase, quelle que soit leur distance, et ce de manière parallèle. Cette révolution apporta des gains de performance considérables dans le traitement du langage naturel et l’IA en général. Dès 2018-2019, BERT (modèle de Google), et GPT (que l’on ne présente plus) lancent des modèles pré-entraînés sur d’immenses volumes de texte. On découvre que ces modèles « comprennent » le langage de manière contextuelle.
Enfin, en 2022, OpenAI met à disposition du grand public GPT-3.5, marquant le début de l’ère de l’IA Générative : Pour la première fois, l’IA peut créer du contenu (texte, code, images avec DALL-E) d’une qualité quasi-indiscernable de celle d’un humain.
Mécanismes et similitudes avec le cerveau humain
Pour comprendre quelques principes de base du fonctionnement des IA modernes, je vous propose un petit détour par le cerveau humain, pour explorer quelques analogies utiles…
La Neuropile est une structure de base au cœur du système nerveux humain, qu’on peut décomposer en trois grandes parties.
- Une entrée s’assure de réception et la mise en forme des données, comme l’embedding de l’IA, qui consiste à représenter un mot ou une séquence de façon à capturer les proximités sémantiques et statistiques.
- Un ensemble de neurones forment les couches internes de la neuropile, comme les couches internes du réseau de neurone en IA. Ceux-ci réalisent l’ensemble des traitements qui permettent d’aboutir au résultat.
- Ce résultat sera enfin mis en forme et découlera sur la réponse attendue.
Synapse et neurotransmetteurs : D’un neurone à l’autre, l’information est pondérée à l’aide d’un potentiel (ou seuil) d’action, ce qui va déterminer si le signal est transmis d’un neurone en amont à un neurone en aval. Pour un réseau de neurones virtuels, c’est une fonction mathématique (fonction d’activation) qui va faire office de potentiel d’action.
Hippocampe et mémoire de travail : De façon assez similaire au cerveau humain, l’IA s’appuie sur des données stockées sous forme de clé/valeur et de ce qu’on appelle une fenêtre de contexte. Et d’ailleurs, comme pour le cerveau humain, cette fenêtre de contexte à une capacité limitée.
Plasticité des neurones : C’est la capacité du système nerveux à modifier temporariement l’efficacité de ses connexions (les synapses) en fonction de l’expérience. Pour l’IA, cela renvoi au Self-Attention multi-head, car les deux systèmes visent à adapter la réponse d’une partie du réseau en fonction de la pertinence et de l’importance relative des informations.
- La Self-Attention est une forme de plasticité instantanée : des changements rapides et temporaires permettent de réagir à court terme. Dans l’IA, cela permet de réagir à des relations au sein même d’une phrase.
- Le multi-head permet de reproduire la capacité à se spécialiser de certaines zones du cerveau. Ici, il s’agira plus de prêter attention à des caractéristiques spécifiques dans les informations traitées (la couleur, les formes, etc.).
Lobe temporal et langage : Le cerveau humain et le synthétique, utilisent des mécanismes de prédiction permettant de comprendre d’anticiper quel sera le prochain token, ou « mot ».
Traitement du langage
Le Natural Language Processing, ou NLP, commence par une étape incontournable : La tokenisation. Elle convertit le texte en langage numérique que les modèles peuvent comprendre et traiter. En effet, quelque soit le modèle, celui-ci repose sur le traitement de nombres. le modèle doit donc transformer les mots en nombres pondérés de sorte à conserver les relations qui existent entre les mots et séquences. Si vous avez eu la curiosité de regarder ma modeste implémentation, vous verrez que ce mécanisme est très puissant : mon petit algorithme bancale arrive déjà à traiter 3 tokens (enfin, des nombres) en quelques secondes. Forcément, les modèles professionnels comme GPT et consort peuvent traiter des centaines de millions, voire plusieurs milliards de tokens.
Concernant les tokens, lors de l’entraînement, les modèles d’IA utilisent un procédé qui vise à détecter les séquences fréquentes qui constituerons les tokens. En général, ce seront des mots, ou portion de mots, mais ce peut être des expressions plus longues, suivant le corpus de texte fournit au modèle à l’entraînement et la configuration du « tokenizer » (chargé de découper le texte en tokens) :
aujourd’hui→ pourra être traité comme un token (apostrophe incluse)s’il vous plaît→ souvent un ou deucx tokens selon le modèleNew York→ en général un seul token dans GPT-4o et Llamamachine learning→ un seul token dans beaucoup de modèlesest-ce que→ devient un seul token dans des versions optimisées et 100 % français (ex. certains Mistral ou Llama français)
Plus le mot ou l’expression revient fréquemment dans le texte d’entraînement, plus il y a de probabilité qu’il soit traité comme un seul token. À l’inverse, un mot inconnu sera découpé en plus de token. Lors de l’inférence, cela permet au modèle d’identifier et comprendre des mots inconnus ou mal orthographiés, et à l’opposé d’optimiser le nombre de tokens alloués à des mots ou expressions courants.
Temps présent : Le règne de l’IA générative
L’IA Générative représente une branche de l’Intelligence Artificielle qui se concentre sur la création de contenu nouveau et original, comme du texte, des images, de la musique, du code ou des vidéos, en s’inspirant de données d’entraînement existantes : C’est précisément le modèle d’IA que nous fréquentons au quotidien, avec ChatGPT, Gemini, Grok,…
En 2026, elle est devenue omniprésente, intégrée dans les outils quotidiens et les processus d’entreprise, en générant du contenu créatif, en automatisant des tâches complexes et en favorisant l’innovation dans des secteurs comme la santé, la finance et le divertissement.
Systèmes multimodal : les IA génératives sont désormais capables de recevoir en entrée non seulement du texte, mais aussi des images, de l’audio, et mêmes des vidéos.
Retrieval-Augmented Generation : Ce mécanisme permet d’injecter dans le contexte de l’IA une base de connaissance (par exemple internes à l’entreprise) qui sera spécifique au contexte dans lequel l’IA est utilisée. L’IA sera capable d’identifier elle-mêmes les données pertinentes issues de la base de connaissance, pour la requête de l’utilisateur, pour les injecter dans le contexte de cette requête.
Agents IA : Que nous connaîsons maintenant par Claude Code, OpenClaw, etc. C’est l’idée d’avoir des agents IAs dédiés à des tâches spécifiques. Au delà de ça, l’agentique introduit aussi l’idée que l’IA peut réaliser des actions concrètes, comme coder, tester du code, le déployer,… Voire même prendre le contrôle de tout ou partie de notre environnement de développement.
Et encore plein d’autres choses… L’IA générative dépasse les modèles prédictifs traditionnels en générant du contenu créatif et original, en ouvrant la porte à l’automatisation de tâches complexes, et en favorisant l’innovation.
Elle ouvre la porte à encore plus de progrès, dont nous ne voyons aujourd’hui que l’extrémité visible.
Ressources
- Un réseau de neurones à partir de rien
- Neurosciences
- Cours Hugging Face sur les LLMs (entre autres)
- Histoire du deep learning sur Natural Solutions (2018)
- Attention is all you need (2017)
- Learning representations by back-propagating errors, de David E. Rumelhart, Geoffrey E. Hinton & Ronald J. Williams (1986)