Ce que votre IA ne sait pas — et ne vous dira jamais

Par Jacky Galicher | JG Consultants

Les grandes entreprises tech l'affirment avec assurance : leurs intelligences artificielles auraient ingéré la quasi-totalité du savoir humain disponible. Elon Musk n'a pas hésité à le proclamer en direct sur X en janvier 2025. Le message est clair, rassurant, vendeur.

Il est aussi largement faux.

Des robots qui raclent, pas qui comprennent

Pour s'entraîner, les LLM (ChatGPT, Claude, Llama…) s'appuient sur des robots collecteurs — les crawlers — qui parcourent le Web en aspirant des milliards de pages. Ces bots portent des noms techniques : GPTBot, ClaudeBot, Meta-ExternalAgent. Leur méthode ? Du scraping massif, sans états d'âme, souvent sans respecter les règles d'usage du Web.

Résultat : ce qu'ils récoltent représente moins de 10 % de la totalité du Web. Le "deep Web" — pages derrière formulaires, portails payants, intranets d'entreprise, accès sécurisés — leur est structurellement inaccessible. Les réseaux sociaux comme Facebook sont volontairement verrouillés pour protéger la donnée des géants qui les exploitent eux-mêmes.

Ce n'est pas un détail technique. C'est le fondement du problème.

Un miroir brisé du monde

Le Web lui-même n'est pas neutre. Il surreprésente massivement certaines populations, certaines langues, certaines cultures. Et les IA héritent de ces déséquilibres.

Quelques chiffres qui donnent à réfléchir :

Sur près de 7 000 langues répertoriées dans le monde, seules 343 sont présentes en ligne — et moins de 5 % bénéficient d'une présence numérique notable.
Le français parlé au Québec (connectivité ~97 %) est bien plus représenté que celui du Burkina Faso (moins de 50 % de connectivité) — pourtant, l'Afrique francophone regroupe la moitié des francophones de la planète.
Les pages les plus liées sont les plus crawlées : c'est un biais de popularité qui écrase les sources minoritaires ou alternatives.

Ce que l'IA sait bien, c'est ce qui était déjà dominant. Ce n'est pas de la connaissance : c'est de la reproduction.

Ce qui manque — et qu'on ne voit pas

Voici ce que vos outils IA ne connaissent pas, structurellement :

Les savoirs privés. Tout ce que produisent les entreprises, les laboratoires, les administrations — rapports internes, notes de travail, décisions non publiées — est absent des corpus d'entraînement.

Les traditions orales. Des pans entiers de cultures humaines n'ont jamais été écrits, encore moins numérisés.

Les savoirs tacites. Ce qu'on sait faire sans pouvoir l'expliquer. Le geste du forgeron. L'intuition du DSI expérimenté qui sent qu'un projet va dérailler. Tout cela échappe radicalement au texte.

Les sources récentes. Les corpus ont une date de coupure. Ce qui s'est passé après n'existe pas pour le modèle — sauf à recourir à des agents de navigation en temps réel, eux aussi limités.

Les contenus disparus. Contrairement à l'idée reçue, le Web n'est pas permanent. Des millions de pages s'effacent chaque jour : domaines expirés, serveurs fermés, sites refondus. Cette mémoire perdue est introuvable dans les données d'entraînement.

Le risque le plus grave : la circularité

Les IA sont de plus en plus utilisées pour produire du contenu. Ce contenu se retrouve sur le Web. Ce Web nourrit les prochaines générations de modèles. Qui produiront plus de contenu. Qui…

Ce risque de circularité — s'entraîner sur ses propres outputs — n'est pas hypothétique. Il est déjà en cours. Il amplifie les biais existants au lieu de les corriger.

Ce que cela change pour vous

Si vous êtes DSI, dirigeant ou responsable numérique dans une collectivité ou une administration, voici ce que ces limites impliquent concrètement :

Une analyse de risques produite par IA est aussi bonne que les données sur lesquelles elle repose — et ces données ne couvrent ni votre secteur, ni votre territoire, ni vos pratiques internes.
Une veille réglementaire générée sans supervision humaine peut passer à côté de jurisprudences locales, de textes non numérisés ou d'évolutions trop récentes.
Un outil IA déployé en interne ne "connaît" pas votre organisation : il projette sur elle les patterns de ce qu'il a ingéré ailleurs.

L'IA n'est pas omnisciente. Elle est statistiquement vraisemblable. Ce n'est pas la même chose.

La bonne posture

Utiliser l'IA avec discernement, ce n'est pas la rejeter. C'est comprendre ce qu'elle fait vraiment : produire des réponses plausibles à partir de corpus biaisés et lacunaires, avec une assurance d'autant plus trompeuse qu'elle est fluide et confiante.

La question à se poser avant chaque usage professionnel n'est pas "Est-ce que l'IA peut répondre à ça ?" — elle répondra toujours. La vraie question est : "Sur quoi s'appuie-t-elle pour me répondre, et qu'est-ce qui manque ?"

C'est cette lucidité-là qui distingue une organisation qui pilote l'IA d'une organisation pilotée par elle.

Cet article s'appuie sur une enquête publiée par Le Monde le 30 mai 2026, avec les contributions de Julien Masanès (Internet Archive Europe), Fabien Gandon (Inria), Pedro Ortiz Suarez (Common Crawl) et Bruno Bachimont (UTC Compiègne).

Jacky Galicher est consultant en stratégie IT, spécialisé en gouvernance des systèmes d'information, cybersécurité et transformation numérique. Ancien DSI de l'Académie de Normandie. jgconsultants.fr