Dédale n°1. Le premier essai de la newsletter. Tous les 15 jours, je publie les résultats de mes tests sur des outils d'IA. Une observation, un décodage, un protocole pour tester toi-même.
1. Cas d'observation
En mai 2025, Simon Willison demande à ChatGPT de générer une image de son chien Cleo déguisé en pélican. Le modèle livre l'image. En arrière-plan, sans qu'on lui ait rien demandé, il ajoute un panneau routier HALF MOON BAY et un pélican qui vole.

Image générée par ChatGPT (Simon Willison, mai 2025). L'arrière-plan a été ajouté à l'insu de l'utilisateur, à partir d'un détail mémorisé d'une conversation antérieure.
Willison interroge : pourquoi ce détail ? Réponse de ChatGPT, textuelle :
J'ai ajouté le panneau HALF MOON BAY pour matcher l'ambiance de ta photo originale, et parce que tu as déjà mentionné Half Moon Bay dans nos conversations précédentes.
Une donnée privée a été injectée dans une image. Sans permission. Sans préavis. Sans trace visible.
Ce n'est pas un incident isolé. C'est le comportement nominal de la mémoire native : un fonctionnement attendu, prévu par le constructeur, déclenché à chaque conversation. Le système est conçu pour relire en silence ce qu'il pense savoir de toi, et l'injecter dans ses réponses sans te le signaler. L'incident Willison ne révèle pas un bug. Il révèle ce qui se passe en permanence, et qu'on ne voit que lorsque le résultat dépasse l'attendu (un panneau routier dans une image qui n'aurait pas dû en avoir).
2. Diagnostic
Le problème n'est pas la mémoire elle-même. Le problème est son opacité.
Une mémoire utile n'a pas besoin d'être cachée ou discrète. Elle doit être vraiment lisible, permettre de voir ce qu'on peut y mettre, ce qui s'y trouve, et pouvoir être modifiée. Dans le passé, je vérifiais beaucoup d'instruments de mesure et je contrôlais quatre choses :
- ce qu'ils mesuraient ;
- comment ils le mesuraient ;
- comment les données étaient enregistrées ;
- si, en refaisant le même test le lendemain, j'obtenais le même résultat.
La mémoire de ChatGPT échoue sur ces points. Tu as bien une liste à puces dans les préférences de chaque GPT, où apparaissent les éléments retenus. Mais ce n'est pas le profil exact injecté dans tes conversations. Il a fallu un prompt-leak public pour qu'on découvre la structure réelle de ce profil. Tu ne connais pas les critères d'extraction. Tu ne peux pas exporter le résultat. Tu changes de modèle, tu repars de zéro.
Claude est plus propre. Sa mémoire est scopée par projet : au lieu d'un profil global qui s'applique à toutes tes conversations (logique ChatGPT), Claude crée une mémoire séparée pour chaque projet. Si tu travailles sur "Site web client A" et "Étude personnelle", ce que Claude retient du premier ne contamine pas le second. Le résumé mémoire est éditable à la main. C'est un progrès. Le principe de fond reste identique : la mémoire est l'actif du vendeur, pas le tien.
3. Cartographie des mémoires disponibles
Avant de juger la mémoire native, il faut connaître les mémoires disponibles, ou plutôt les technologies de mémorisation utilisées par tout ce qui est IA aujourd'hui. Je ne parle pas d'outils, je parle de technologies. Cinq coexistent.
| Technologie | Persistance | Compounding | Inspectable |
|---|---|---|---|
| Fenêtre de contexte (Claude Projects, NotebookLM) | Session | Non | Oui |
| RAG (recherche dans une base indexée) | Index figé | Non (redécouvre) | Partiel |
| Mémoire native (ChatGPT Memory) | Persistante | Faible (faits plats) | Non |
| Mémoire d'agent (heartbeat) | Persistante | Risqué si non isolé | Variable |
| LLM Wiki (Karpathy) | Persistante, Git | Oui (5 à 15 pages par source) | Total |
3.1 Lecture du tableau
Persistance. Est-ce que ça survit à la fin de la session ? La fenêtre de contexte non. Tout le reste oui.
Compounding. Est-ce que ça devient plus riche au fil du temps, ou est-ce que ça reste plat ? C'est la colonne qui sépare les technologies de capitalisation des technologies de mémorisation. La mémoire native empile. Le wiki densifie. Ce n'est pas la même opération cognitive.
Inspectable. Est-ce que je peux lire ce qui est stocké, dans le détail, à tout moment ? La mémoire native échoue ici. Le wiki gagne par construction (markdown plat, Git).
3.2 Conclusion intermédiaire
La mémoire native gagne sur la persistance. Elle échoue sur le compounding. Elle échoue sur l'inspection.
C'est le profil canonique d'un produit grand public : pratique à l'usage, opaque sur le fond.
4. Critères de calibration
Le tableau précédent décrit l'écosystème vu de haut. Pour aller plus loin, il faut calibrer chaque technologie : la confronter à des critères stables, comme on le fait avec un instrument de mesure. Quatre questions suffisent.
- Inspectabilité. Je peux lire la totalité de ce qui est retenu, ou seulement un résumé ?
- Édition. Je peux corriger une ligne, ou seulement supprimer un bloc entier ?
- Portabilité. Je peux extraire ma mémoire pour la rejouer ailleurs ?
- Traçabilité. Je peux voir quand un fait a été ajouté, modifié, par quoi ?
| Technologie | Inspectabilité | Édition | Portabilité | Traçabilité |
|---|---|---|---|---|
| ChatGPT Memory | Liste partielle | Suppression | Non | Non |
| Claude (consumer) | Résumé éditable | Oui | Manuelle | Non |
| Wiki markdown + Git | Totale | Ligne par ligne | Totale | Diff complet |
Le wiki gagne sur les quatre. Pas par préférence stylistique. Par construction architecturale. C'est ce qu'on appelle un instrument calibré : un objet dont on connaît le comportement, et que l'on peut auditer à tout moment.
5. Pathologies de la mémoire native
La cartographie (section 3) et la calibration (section 4) montrent où la mémoire native échoue dans l'absolu. Reste à comprendre pourquoi ces échecs comptent dans la durée. Deux propriétés manquent à la mémoire native. Elles sont rarement nommées, parce qu'elles ne se voient qu'à l'usage long.
5.1 Le déficit de compounding
Le compounding, c'est l'effet où chaque nouvelle source ajoutée enrichit ce qui existe déjà, au lieu de s'empiler à côté. La mémoire native fait l'inverse. Elle accumule des bullets indépendants. Tu ajoutes un fait sur ton métier, un autre sur tes clients, un autre sur tes outils. Six mois plus tard, tu as deux cents bullets et zéro structure. Aucun lien tracé. Aucune contradiction relevée. Aucune synthèse.
Un wiki bien tenu fait l'inverse. Chaque source touche cinq à quinze pages existantes. Elle met à jour des définitions, ajoute des cross-références, signale les contradictions, déclenche de nouvelles synthèses. Tu n'accumules pas. Tu densifies. Au bout de six mois, le wiki vaut plus que la somme de ses sources. Une mémoire native ne fera jamais ça, par construction.
5.2 L'enfermement implicite (lock-in)
Plus tu utilises la mémoire native d'une technologie, plus tu deviens dépendant de cette technologie. C'est un piège qui se referme doucement, sans bruit. On appelle ça un enfermement (lock-in).
Tu passes 18 mois à discuter avec ChatGPT. Tu lui apprends ton métier, tes clients, tes habitudes. Un jour, tu veux passer chez Claude (ou l'inverse). Aucun bouton "exporter ma mémoire" n'existe. Tout reste chez le vendeur. Pour récupérer le contexte chez le concurrent, il faut copier-coller à la main, conversation par conversation. Personne ne le fait. Donc tu restes.
Pour un solopreneur qui capitalise sur plusieurs années, ce n'est pas un détail. C'est un risque structurel. Tu construis une dépendance qui se paiera quand le vendeur changera ses règles, ses prix, ou son modèle.
Avec le RGPD et l'EU AI Act, tu dois pouvoir expliquer ce que les outils retiennent des données de tes équipes et de tes clients. Si tu ne peux pas auditer ce que le vendeur a stocké, tu ne peux pas le déclarer. Et ce que tu ne peux pas déclarer, tu ne devrais pas l'utiliser.
6. Protocole de test (15 minutes)
Le diagnostic théorique ne sert à rien si tu ne mesures pas la situation chez toi. Voici un protocole reproductible, calé sur les quatre critères de calibration de la section 4. Quinze minutes suffisent. Le but : objectiver la dette de souveraineté de tes propres outils, c'est-à-dire l'écart entre ce que tu veux que l'IA garde de toi, et ce qu'elle a en réalité décidé de retenir.
Étape 1 (utilisateurs ChatGPT) — Audit ChatGPT. Ouvre Paramètres > Personnalisation > Mémoire. Compte le nombre d'entrées. Lis-les. Combien sont fausses, obsolètes ou trop personnelles ?
Étape 1 bis (utilisateurs Claude) — Audit Claude. Ouvre un projet et regarde le résumé mémoire (memory summary) dans les paramètres du projet. Note l'expérience : plus propre, mais pas portable d'un projet à l'autre, ni d'un modèle à l'autre.
L'étape 1 et l'étape 1 bis sont parallèles : tu fais celle qui correspond à ton usage. Si tu utilises les deux, fais les deux.
Étape 2 — Test de cohérence. Lance une conversation neutre avec l'IA concernée, demande : "Liste tout ce que tu sais de moi, sans rien omettre." Compare la réponse avec la liste vue dans les paramètres. Le périmètre est rarement le même.
Étape 3 — Mesure de l'écart.
Crée un fichier memoire.md chez toi. Recopie à la main les cinq informations que tu veux qu'une IA garde. Compare avec ce que l'outil a effectivement retenu (étape 1 ou 1 bis).
L'écart entre les deux listes, c'est ta dette de souveraineté. Plus elle est grande, plus la mémoire native décide à ta place.
7. Architecture alternative : le LLM Wiki
J'ai construit mon coffre Obsidian comme un wiki que mes IA lisent avant de répondre. Markdown plat. Versionné Git. Lisible par Claude, ChatGPT, ou n'importe quel modèle local. Je vois chaque ligne. Je corrige chaque erreur. Je rejoue chaque historique.
Le pattern vient d'Andrej Karpathy (avril 2026). Il repose sur trois couches.
| Couche | Rôle | Qui possède |
|---|---|---|
| Sources brutes | Documents originaux, immuables | Humain (curation) |
| Wiki | Pages markdown interlinkées, générées et maintenues par le LLM | LLM (édition totale) |
Schema (CLAUDE.md) | Règles de maintenance, conventions, workflows | Humain + LLM (co-évolution) |
Trois opérations canoniques le font vivre.
- Ingest. Une nouvelle source touche cinq à quinze pages existantes : index, entités, concepts, log.
- Query. Une question produit une réponse citée, et les bonnes réponses retournent dans le wiki sous forme de nouvelles pages.
- Lint. Audit régulier qui détecte contradictions, claims obsolètes, pages orphelines, trous de données.
C'est moins magique que la mémoire native. C'est mesurable. C'est à toi.
Si l'idée te parle, je documente la méthode complète dans la Méthode LLM Wiki. Pré-vente early bird 99 EUR (au lieu de 199) jusqu'au 11 mai inclus. Livraison le lendemain. Voir la Méthode LLM Wiki
Une IA ne devient pas plus utile parce qu'elle retient mieux. Elle devient utile quand on peut la lire.
D'ici 15 jours, fais le test des quinze minutes. L'écart te dira ce qu'il y a à faire.
Damien
Questions fréquentes
Quelle est la différence entre la mémoire de ChatGPT et celle de Claude ?
ChatGPT applique un profil mémoire global à toutes les conversations, opaque et non exportable. Claude scope la mémoire par projet : la mémoire d'un projet ne contamine pas un autre, et le résumé mémoire est éditable à la main. Les deux restent l'actif du vendeur, pas le tien.
Comment auditer ce que ChatGPT retient de moi ?
Ouvre Paramètres > Personnalisation > Mémoire et lis la liste. Puis lance une conversation neutre et demande : "Liste tout ce que tu sais de moi, sans rien omettre." Le périmètre des deux listes est rarement le même. C'est cet écart qui mesure ta dette de souveraineté.
Qu'est-ce que le compounding dans une mémoire LLM ?
Le compounding est l'effet où chaque nouvelle source enrichit ce qui existe déjà au lieu de s'empiler à côté. La mémoire native ChatGPT empile des bullets indépendants. Un wiki bien tenu touche cinq à quinze pages existantes par source : il densifie au lieu d'accumuler.
Pourquoi la mémoire native pose problème sous le RGPD et l'EU AI Act ?
Tu dois pouvoir expliquer ce qu'un outil retient des données de tes équipes et clients. Si tu ne peux pas auditer ce que le vendeur a stocké (cas de la mémoire native), tu ne peux pas le déclarer. Et ce que tu ne peux pas déclarer, tu ne devrais pas l'utiliser.
Qu'est-ce qu'un LLM Wiki et comment ça marche ?
Le LLM Wiki est un pattern d'Andrej Karpathy (avril 2026). Trois couches : sources brutes (humain), wiki markdown maintenu par le LLM, schema CLAUDE.md (co-évolution). Trois opérations : ingest (la source touche 5 à 15 pages), query (réponse citée + retour dans le wiki), lint (audit régulier). Versionné Git, lisible par n'importe quel modèle, totalement inspectable.
L'incident Willison est documenté ici : simonwillison.net/2025/May/21/chatgpt-new-memory/. Le pattern LLM Wiki vient du gist Karpathy : gist.github.com/karpathy.
Tags
Damien Bihel
Architecte IA Industriel
18 ans d'expérience en métrologie industrielle, expert Data Science et IA. J'accompagne les PME industrielles dans leur transformation IA.