De la mémoire à l’action : dissection d'une IA Générative

Dans notre précédent article, nous avons parcouru l'histoire de l'IA jusqu'à nos jours, en effleurant quelques concepts clés de l'IA. Cette fois-ci, nous allons creuser, dans sa mémoire...
De la mémoire à l’action : dissection d'une IA Générative

Lorsque nous nous intéressons à la mémoire des IA, nous ne pouvons faire à moins que de trouver des parallèles avec le fonctionnement de notre mémoire humaine. Ce n’est pas très surprenant, quand on y pense. Comme le dirait Ludwig von Mises, « s’il y a ou s’il peut y avoir quelque part d’autres êtres (…) qui pensent et agissent d’autre manière, cela est hors de l’atteinte de l’esprit humain » et « il est impossible à l’esprit humain de concevoir un mode d’action dont les catégories différeraient de celles qui déterminent nos propres actions » : l’IA étant conçu par des humains, et l’humain ne pouvant concevoir de modes (ou catégories) de pensée qui dépasse ses propres capacités.

En 2026, l’IA profite de toutes les découvertes que nous avons pu faire sur notre propre mode de fonctionnement. Elle accélère à moindre coût des études de marchés et analyses de la concurrence, permet de prototyper, voire déployer des applications en quelques heures de travail (pour de simples sites vitrines) ou quelques jours (pour des applications métiers plus complètes),…

Pour vous en donner un exemple concret : ma femme a développé plusieurs applications en vibecoding et sans connaissance avancée en développement, DevOps ou Cloud. L’une de ses applications est actuellement disponible sur Railway.

D’autres exemples émergent, comme les chatbots, autant à usage interne (faciliter l’accès aux données de l’entreprise) qu’externe (FàQ/Support premier niveau par IA), des assistants IA qui vous guident pas à pas dans l’utilisation de tel produit ou tel service,… Je ne m’avance pas beaucoup à considérer que l’IA a envahi tout les secteurs de l’économie, et que nous n’en sommes encore qu’au début de la révolution.

Comment fonctionne l’IA générative ?

L’IA générative incarne l’état de l’art en Intelligence Artificielle à ce jour : lorsque nous utilisons le prompt de notre IA favorite, ou que nous travaillons avec Claude Code, Cursor, Opencode.ai ou autre, nous utilisons sans nous en rendre compte des concepts de l’IA Générative. Explorons maintenant ce qu’elle a dans la tête.

Gérer le volume d’information : entre LCW et RAG

Comme le suppose le titre de cet article, le point de focale ici est la mémoire de l’IA : comment mémorise-t-elle les informations, et comment les retrouve-t-elle ? La solution repose sur le fonctionnement de notre mémoire, et notamment l’utilisation du langage pour encoder l’information, sujet étudié de longue date, comme en témoigne Episodic and semantic memory, article de E. Tulving datant de 1972.

L’IA générative mime ces mécanismes au travers d’outils mathématiques.

La base : la vectorisation

Dans mon précédent article, nous avons parlé en détail de la notion de token. Ce sont grosso-modo des morceaux de phrase, pouvant aller de quelques lettres à des expressions récurrentes. Maintenant, ces tokens restent incompréhensibles, pour l’IA. Pour être capable de leur donner un sens, elle va s’appuyer sur la vectorisation (ou « embedding ») : Cela consiste en la transformation d’un segment (notre token ou ensemble de tokens) en un vecteur numérique, autrement dit un ensemble de nombres représentant le sens de cette donnée, encodé grâce à des algorithmes spéciaux.

Les algorithmes en questions peuvent être vus comme une cartographie du langage : Ils reposent sur l’hypothèse qu’un mot apparaissant dans des contextes similaires auront des sens similaires. Si, dans des millions de textes, le mot « Paris » apparaît souvent près de « France », « Capitale » et « Tour Eiffel », l’algorithme va placer le vecteur de « Paris » mathématiquement proche de ces autres mots, ce qui permettra à l’IA de « comprendre » que Paris est la capitale de la France, et qu’on y trouve la Tour Eiffel.

C’est le mécanisme qui permet aux IA de reproduire plus ou moins la façon dont nous autres, les humains, comprenons le texte.

Fenêtre de contexte étendu (Long Context Window)

Lorsque nous utilisons l’IA au quotidien, nous passons généralement par le prompt, où nous rédigeons un message en bon français, que l’IA va interpréter, afin de nous fournir une réponse adéquate. Lorsque nous envoyons plus d’un message dans la même fenêtre, ou des documents en pièce jointe, l’IA va commencer à exploiter ce qu’on appelle le contexte de la conversation. Le Contexte : Lorsque nous démarrons une session avec notre IA favorite, celle-ci va conserver l’historique de l’échange dans sa mémoire à court terme, ou plus exactement son contexte. Lorsque nous chargeons des documents en plus de notre prompt, l’IA va exploiter ce contexte pour y stocker le contenu des fichiers. Transformer (et mécanisme d’attention) : C’est le mécanisme révolutionnaire dont nous avons parlé en fin de passage sur l’histoire de l’IA de mon précédent article. Le mécanisme d’attention consiste à analyser chaque mot au regard des autres mots de la phrase pour comprendre leurs relations. Pour cela, l’IA va s’intéresser à plusieurs dimensions du mot, comme la grammaire, le sens, le genre, etc. Avec différentes optimisations, comme l’attention sur des séquences de token, au lieu d’un token donné, ou la capacité à identifier des relations sur l’ensemble du document, les IA arrivent à créer des liens statistiques et sémantiques au sein de contextes volumineux, et donc de l’ensemble des documents que nous lui fournissons.

Génération augmentée par la récupération (Retrieval-Augmented Generation, ou RAG)

Le contexte, c’est bien pour la conversation d’un jour, ou pour quelques documents. Mais lorsque le volume augmente, typiquement pour un usage professionnel, ça coince. Dans le cadre professionnel, nous aurons par exemple les donnés des clients, les résultats d’entretiens utilisateur, la documentation du produit, toutes les explorations, maquettes et autres expérimentations menées autour de notre produit… À ce moment là, nous allons clairement dépasser la capacité du contexte. Dans ces conditions, nous nous tournerons vers le RAG : c’est une technologie permettant à l’IA de retrouver et extraire les portions de la documentation correspondant à la demande de l’utilisateur. Au lieu de récupérer et « lire » l’intégralité de la documentation, comme elle le ferait avec les documents du contexte, l’IA va :

  • Analyser notre question pour calculer des vecteurs comme précédemment (la vectorisation) ;
  • Elle va ensuite chercher des passages similaires dans notre documentation (qui est également vectorisée) ;
  • Enfin, elle va construire sa réponse basée uniquement sur ces données.

Comment le RAG découpe-t-il la documentation ?

La documentation n’est toutefois pas traitée d’un bloc, comme du texte, mais déjà indexée sous la forme de segments, ou chunks. La segmentation, ou « chunking » peut suivre trois procédés différents :

  • Le découpage à taille fixe (Fixed-size Chunking) : C’est la méthode la plus basique. Elle s’appuie sur un compteur numérique, par exemple 500 caractères ou 200 tokens. Cette méthode risque par contre de découper une phrase ou un mot en plein milieu, ce qui fait perdre tout son sens au fragment.
  • Le découpage récursif ou structurel (Recursive Character Splitting) : C’est la méthode standard la plus utilisée aujourd’hui. Elle essaie de respecter la hiérarchie du document en s’appuyant sur des séparateurs prioritaires (sauts de ligne, retours chariots, fin de phrase, etc.). Cela permet de préserver au minimum l’unité logique des paragraphes et des phrases (qui correspond en principe à la logique du texte)
  • Le découpage sémantique (Semantic Chunking) : C’est la méthode la plus « intelligente » car elle utilise l’IA pour le découpage lui-même. Il va s’appuyer sur la même logique de vecteur que ci-après, entre les phrases, pour déterminer si deux phrases successives abordent des sujets similaires, ou au contraire trop différents (ruptures sémantiques). Avec cet approche, chaque segment ne traitera que d’un seul concept cohérent.

Quelque soit la méthode choisie, le chunking s’assurera également que la fin d’un segment (e.g. les 50 derniers tokens) es retrouvent également dans le segment suivant, pour assurer la continuité du texte et de ses idées : si une information importante se retrouve à cheval sur deux segments, le chevauchement permet de préserver les liens logiques autour de cette information. C’est ce qu’on appelle le chevauchement, ou « overlap ».

L’agentique : Exploiter plusieurs cerveaux artificiels

Nous l’avons vu, l’IA reprend nombre de mécanismes du cerveaux humains : Découpage sémantique de l’information, capacité à établir des relations sur la base de la sémantique, retrouver l’information en mémoire,…

Nous retrouvons les procédés de mémorisation, d’analyse et d’extraction de l’information du cerveau humain. Bien qu’elle soit encore sujette à erreurs, comme les hallucinations ou les fuites de donnés, L’AI générative reste plus performante et plus précise que le cerveau humain pour le traitement de tâches procédurales.

Jusqu’à présent, nous avons vu l’IA utilisée pour lire, analyser et extraire de l’information à partir de la documentation que nous lui fournissons, que ce soit par le contexte ou par une base de donnée, en plus des données d’entraînement du modèle.

Les agents permettent d’aller encore plus loin. Si l’IA est un cerveau, les agents permettent de lui ajouter un organisme complet, avec mémoire à long terme, boucle de décision, bras et jambes.

Si nous reprenons un processus produit classique, nous aurions pour l’instant : analysé les données du marché, consolidé et extrait des opportunités à partir des retours clients et utilisateurs, nous aurions même pu prioriser et élaboré une solution faisable en recoupant avec la connaissance que l’IA aurait acquis en analysant le code source de notre produit. Avec l’agent IA, nous pouvons alors passer à l’implémentation, la livraison et au déploiement de notre produit, comme l’a fait à son échelle ma femme avec son application (non non, il n’y a zéro placement produit, ici 👀).

Raisonnement et action : Pattern ReAct

Nous avons tous été déjà confronté à ce problème d’hallucination des IA : lorsqu’il commence à raconter n’importe quoi sur un sujet que nous maîtrisons. Ce pattern, inventé et formalisé en 2022, fournit une solution à ce problème. L’idée est d’alterner les phases de raisonnement, d’action et d’observation en suivant une logique similaire aux cycles PDCA (Plan / Do / Check / Act) : L’agent va alors procéder de façon itérative, en corrigeant ses propres erreurs à chaque étape en confrontant son résultat avec l’attendu, de sorte à réduire les phénomènes d’hallucination.

Le modèle en lui-même étant « stateless » (sans mémorisation interne de l’état, c’est au niveau de la logique d’agent que les résultats et objectifs sont mémorisés, de sorte à les introduire dans le contexte de la prochaine itération.

Le MCP, ou comment interagir avec les services

MCP est un protocole ouvert (introduit par Anthropic fin 2024, standardisé depuis) qui standardise la connexion entre agents IA et le monde extérieur : outils, base de donnée, APIs, fichiers, etc. Les fournisseurs de service sur lesquels s’appuiera notre agent doivent exposer une documentation que l’agent pourra consommer pour savoir comment utiliser ce service. De la sorte, l’agent sera capable de comprendre qu’il doit utiliser tel ou tel service lorsqu’il reçoit un prompt en langage naturel.

Pour aller plus loin : plusieurs agents

Si un agent permet déjà de débloquer de nombreuses situations, une équipe complète d’experts ira plus vite, plus loin, et plus efficacement.

En pratique, chaque agent reprend le pattern ReAct à son compte et se spécialise sur une tâche (prise de décision, recherche, rédaction, etc.). Les agents vont ensuite collaborer suivant le modèle d’organisation choisie.

  • L’architecture : elle peut être hiérarchique (avec un chef d’équipe et des exécutants), décentralisés (agents débattant de pair à pair), ou bien hybride (des organisations plus complexes, comme dans les grandes entreprises).
  • Le modèle de décision : Sur la base du vote, de discussions structurées, d’un consensus,… ou imposé par le chef d’équipe.
  • Communication : Les agents pourrons échanger directement des messages (i.e. l’Agent A rédige un prompt à l’attention de l’Agent B), ou bien s’appuyer sur du stockage, comme une base de donnée.

Évaluer les résultats

Comment savoir si un agent fait bien son boulot ? Nous ne pouvons pas nous contenter d’accepter le résultat pour les beaux yeux de l’agent (de toute façon, il n’en a pas). Nous allons plutôt mesurer le succès, l’efficacité, la robustesse, le coût, et la sécurité.

Par exemple, nous évaluerons le taux de réussite, le nombre d’étapes et de tokens consommés, etc. Nous pouvons également confronter ce que l’agent à produit à des standards de sécurité. Nous pouvons fournir un retour à l’agent sous la forme d’un score ou d’une description. Enfin, le contrôle peut être fait par un agent, ou bien par un humain (et l’intervention humaine reste nécessaire, à un moment où un autre du processus).

Exploiter le cerveau artificiel

En 2026, l’IA générative n’est plus « magique ». C’est un ensemble d’outils que n’importe quelle entreprise peut déployer en quelques semaines avec les bons outils.

Nous n’avons plus besoin d’être data scientist pour en tirer profit. Il suffit de comprendre ces 3 couches :

  1. Des donnés concrètes à exploiter ;
  2. Une approche solide avec RAG, agents, et orchestration d’agents ;
  3. Une infrastructure légère et sécurisé où pourrons travailler nos agents.

Avec ça, il est possible de déployer une solution et la tester rapidement.

Cependant, l’IA reste encore perfectible, et l’intervention humaine reste fondamentale, si nous voulons éviter les mauvaises surprises.

Cet article est déjà particulièrement long (l’un des plus long que j’aurai rédigé), et pourtant, il ne fait que survoler les innombrables concepts de l’IA générative. Pour le prochain article, nous nous concentrerons sur des solutions pour sécuriser et monter une infrastructure IA à l’échelle (spoiler alert : en faire un max en local).

Si tout ces sujets vous passionnent autant que moi, je suis très motivé autant pour explorer les aspects théoriques (mémoire, langage, etc.) que pratique (RAG, agentique)… Faites moi simplement signe, et je vous partagerai tout ce que j’apprendrai au cours des semaines à venir.

Ressources


No comments yet.