Quand l'IA remplace ceux qui la nourrissent

Le schéma est désormais classique. Un département — support client, analyse financière, rédaction de documentation technique, contrôle qualité — est partiellement automatisé grâce à un modèle de langage ou un système de classification supervisé. Les effectifs sont réduits. Les résultats à court terme sont satisfaisants, parfois spectaculaires. Le coût par ticket baisse, le délai de traitement aussi. Les slides du comité de direction affichent un ROI positif à douze mois.
Ce que les slides ne montrent pas : d'où venaient les données qui ont permis au modèle d'atteindre ce niveau de performance. Dans la majorité des cas, ce sont les experts humains eux-mêmes — ceux qu'on vient de remplacer — qui généraient, annotaient, validaient ou corrigeaient les données d'entraînement. Pas dans un processus dédié. Par le simple exercice de leur métier.
Un analyste crédit qui rédige un avis motivé sur un dossier produit, de fait, une donnée d'entraînement. Un ingénieur support qui reformule un diagnostic en langage client enrichit implicitement le corpus sur lequel repose le chatbot qui le remplace. Supprimer le poste, c'est aussi couper l'alimentation en données fraîches, contextualisées, nuancées.
Le pipeline qui se dévore
Chez un assureur européen qui a déployé un système d'aide à la décision sur les sinistres complexes fin 2023, les équipes data ont constaté en début d'année 2025 une dérive statistique sur les prédictions. Pas brutale — insidieuse. Le modèle fonctionnait toujours, mais ses recommandations sur les cas atypiques se dégradaient. L'explication identifiée en interne : les experts sinistres seniors, dont l'effectif avait été réduit de 40 %, produisaient mécaniquement moins de décisions annotées exploitables pour le réentraînement. Les cas restants étaient traités par des profils plus juniors ou par le modèle lui-même. Le modèle commençait à apprendre de ses propres sorties.
Ce phénomène a un nom dans la littérature scientifique : le model collapse. Des chercheurs d'Oxford et de Cambridge l'ont décrit formellement dans un article publié dans Nature en juillet 2024. Quand un modèle est réentraîné sur des données qu'il a lui-même générées, les distributions statistiques se contractent. Les cas rares disparaissent. Les nuances s'érodent. Le modèle converge vers une version appauvrie de la réalité qu'il est censé représenter.
Le papier portait sur les grands modèles de langage. Mais le mécanisme s'applique à n'importe quel système supervisé déployé dans une boucle de production où les humains qui corrigeaient les erreurs ne sont plus là pour le faire.
42 %
Selon une enquête menée par Revelio Labs sur les données d'emploi américaines, les postes les plus exposés à l'automatisation par l'IA générative ont connu une baisse de recrutement de 42 % entre janvier 2023 et mars 2025 dans les entreprises du Fortune 500. Le chiffre agrège des réalités différentes — gel d'embauche, non-remplacement de départs, suppressions nettes. Mais la tendance est univoque : les postes producteurs de données expertes se raréfient.
En parallèle, les équipes MLOps interrogées par Gartner en fin d'année 2024 plaçaient la « disponibilité de données d'entraînement de qualité » comme leur premier frein opérationnel, devant le coût du compute et la gouvernance. En 2022, ce point arrivait en troisième position.
La corrélation n'est pas causale au sens strict. Mais elle décrit un environnement où l'on supprime des producteurs de données au moment précis où l'on manque de données.
Le DSI pris à contre-pied
La difficulté pour les directions informatiques : le problème ne se manifeste pas au déploiement. Il se manifeste au deuxième ou troisième cycle de réentraînement. Parfois dix-huit mois après la mise en production. Les métriques de performance initiales sont bonnes précisément parce que le modèle a été entraîné sur un corpus riche, produit par une équipe complète. La dégradation arrive quand ce corpus vieillit et que personne ne le renouvelle avec le même niveau de granularité.
Un responsable data d'un groupe industriel français du CAC 40, lors d'un échange en marge du salon AI Paris en juin 2025, résumait le dilemme : « On m'a demandé de justifier le coût de garder des experts dont le travail quotidien est désormais fait par le modèle. Mais si je les perds, je n'ai plus personne pour valider que le modèle ne dérive pas. Je n'ai même plus personne pour comprendre ce que voudrait dire dériver dans leur domaine. »
La réponse standard de l'industrie — faire appel à des annotateurs externes, souvent via des plateformes de crowd-sourcing — ne résout pas le problème. Un annotateur formé en trois jours sur un protocole ne remplace pas un expert métier qui connaît les exceptions, les cas limites, les dépendances contextuelles. La distinction entre un cas classique et un cas atypique, dans un domaine spécialisé, repose souvent sur une connaissance tacite que personne n'a formalisée. C'est justement pour ça qu'on utilisait du machine learning : pour capturer ce que les experts faisaient sans pouvoir l'expliquer sous forme de règles.
Le précédent ERP
Le scénario n'est pas sans précédent. Dans les années 2000, plusieurs grandes entreprises ont externalisé massivement leurs fonctions IT après avoir déployé des ERP. Les équipes internes qui comprenaient les règles métier encodées dans le système ont quitté l'organisation. Dix ans plus tard, quand il a fallu migrer ou moderniser ces ERP, personne ne savait plus pourquoi tel paramètre était configuré de telle manière. Les projets de migration SAP de la décennie 2015-2025 en portent encore les cicatrices, sous forme de surcoûts documentés.
La différence avec l'IA : un ERP mal compris produit des erreurs visibles. Un modèle qui dérive produit des résultats plausibles mais faux. Le seuil de détection est plus haut. Le temps avant correction est plus long.
Rôles fantômes
Certaines organisations commencent à créer des rôles hybrides — « AI trainers » ou « domain validators » — pour maintenir le lien entre l'expertise métier et le pipeline de données. Accenture a publié une note en avril 2025 estimant que 15 à 20 % des effectifs remplacés par l'IA devraient être réaffectés à des fonctions de supervision et d'alimentation de données. Le chiffre n'est étayé par aucune méthodologie publique.
Dans les faits, convaincre un comité exécutif de garder 20 % d'un effectif qu'il vient de supprimer pour des raisons de productivité relève d'un exercice politique plus que technique. Le business case d'un expert maintenu pour « nourrir le modèle » ne se défend pas avec les mêmes indicateurs que le business case de l'automatisation elle-même.
Et ces rôles, quand ils existent, ne sont pas toujours placés sous la responsabilité de la DSI. Ils relèvent parfois des métiers, parfois des RH, parfois de personne en particulier. La ligne hiérarchique est floue. Le budget aussi.
Un directeur technique d'une scale-up parisienne spécialisée dans l'IA appliquée au juridique expliquait en mai dernier avoir réembauché deux juristes seniors licenciés dix-huit mois plus tôt. Pas pour traiter des dossiers. Pour relire ce que le modèle produisait et identifier les cas où il se trompait de manière indétectable par un non-spécialiste. Le coût a été imputé à la R&D. Les juristes concernés ont négocié une augmentation de 30 %. Ils savaient qu'ils étaient devenus rares.
Les données synthétiques comme fausse sortie
L'argument le plus fréquent pour évacuer le problème : les données synthétiques. Générer artificiellement des données d'entraînement à partir de modèles existants pour compenser l'absence de données humaines fraîches. NVIDIA, Meta et Google investissent massivement dans cette direction. Le marché des données synthétiques est estimé à 2,3 milliards de dollars en 2025 par Cognilytica.
Le problème est circulaire. Générer des données synthétiques de qualité suppose un modèle de référence fiable. Si ce modèle est lui-même affecté par un appauvrissement de ses données sources, les données synthétiques héritent des mêmes biais, des mêmes angles morts. On ne crée pas de la diversité statistique à partir d'un système qui a déjà perdu la sienne. Les travaux d'Ilya Sutskever, avant son départ d'OpenAI, abordaient directement ce risque sans employer de termes rassurants.
Pour les cas d'usage enterprise — scoring de risque, diagnostic technique, triage médical, analyse réglementaire — les données synthétiques peuvent compléter un corpus existant. Elles ne peuvent pas remplacer l'apport d'un praticien confronté à un cas réel dans un contexte réel avec des contraintes réelles.
Ce qui est en jeu
Le calcul économique de l'IA en entreprise repose sur une hypothèse implicite : que la performance du modèle au moment du déploiement est durable. Que les conditions qui ont permis cette performance — notamment la richesse et la fraîcheur du corpus d'entraînement — vont se maintenir. Rien dans la pratique actuelle ne garantit cette hypothèse. Et les décisions RH prises aujourd'hui pour capturer les gains de productivité de l'IA compromettent potentiellement les conditions de sa propre maintenance.
Il ne s'agit pas d'un argument contre l'automatisation. Il s'agit d'une question de comptabilité complète. Le coût d'un expert métier maintenu en poste — ou réaffecté à une fonction de supervision des données — doit être comparé au coût d'un réentraînement sur corpus dégradé, d'une dérive non détectée pendant six mois, d'un incident de production sur un cas atypique que le modèle n'a jamais appris à reconnaître parce que plus personne ne le traitait.
Les budgets IA 2025 des entreprises françaises, tels que compilés par Numeum, intègrent le compute, les licences, l'intégration, la formation des utilisateurs. Moins de 8 % mentionnent un poste dédié à la maintenance des données d'entraînement sur le moyen terme.
Le dernier rapport annuel de Dataiku, publié en mars 2025, note une hausse de 60 % des tickets de support liés à des problèmes de data drift chez ses clients enterprise par rapport à l'année précédente. L'entreprise vend des outils de monitoring. Elle a intérêt à ce que le problème existe. Le problème existe quand même.
TL;DR
Les entreprises suppriment les experts métier dont le travail quotidien alimentait les données d'entraînement de l'IA qui les remplace — et personne ne budgète la dégradation inévitable des modèles qui en résulte.
- Le model collapse ne concerne pas que les LLM publics : tout système supervisé réentraîné sur des données appauvries par la réduction d'effectifs experts est exposé au même mécanisme de dégradation progressive.
- Moins de 8 % des budgets IA enterprise français intègrent un poste dédié à la maintenance des données d'entraînement à moyen terme, alors que la disponibilité de données de qualité est devenue le premier frein opérationnel identifié par les équipes MLOps.
- Les données synthétiques ne compensent pas la disparition de la connaissance tacite : elles héritent des biais et des angles morts du modèle qui les génère.
Questions fréquentes
Combien de temps faut-il avant que la dégradation des données d'entraînement devienne visible sur la performance d'un modèle en production?
Entre douze et vingt-quatre mois selon le domaine et la fréquence de réentraînement. La performance initiale masque le problème parce que le modèle a été entraîné sur un corpus riche produit par une équipe complète. La dérive se manifeste d'abord sur les cas atypiques, là où l'expertise humaine faisait la différence, avant de toucher les cas standards.
Comment justifier auprès d'un comité exécutif le maintien d'experts métier dont le travail opérationnel a été automatisé?
En intégrant le coût de la maintenance des données dans le TCO de l'IA, au même titre que le compute ou les licences. Le business case doit comparer le coût annuel d'un expert réaffecté à la supervision du modèle au coût d'un réentraînement sur corpus dégradé, d'un incident de production non détecté ou d'un recrutement d'urgence de profils devenus rares et donc plus chers.
Les données synthétiques peuvent-elles résoudre le problème à terme?
Elles peuvent compléter un corpus existant mais pas se substituer à l'apport d'experts confrontés à des cas réels. Une donnée synthétique générée par un modèle déjà appauvri reproduit les mêmes lacunes. Pour les cas d'usage enterprise à fort enjeu — risque, conformité, diagnostic — la validation humaine reste le seul garde-fou contre la contraction des distributions statistiques