De vibe coding à agentic engineering : Karpathy cartographie ce que les développeurs font déjà sans le nommer

Andrej Karpathy, ancien directeur de l'IA chez Tesla et cofondateur d'OpenAI, a détaillé fin juin un spectre en cinq niveaux pour décrire comment les développeurs interagissent avec les modèles de langage quand ils codent. Le terme « vibe coding », qu'il avait lui-même popularisé en février sur X, y occupe le niveau le plus bas : le développeur tape un prompt, accepte le résultat tel quel, ne relit pas. Le niveau le plus élevé, « agentic engineering », décrit un mode où l'humain orchestre des agents logiciels autonomes, fixe des objectifs, vérifie les résultats, mais n'écrit plus de code ligne par ligne.
Entre les deux, trois paliers intermédiaires. Le « vibe coding avec supervision » implique que le développeur relit et corrige. Le « copilot-assisted development » correspond à l'usage classique de GitHub Copilot ou Cursor : autocomplétion acceptée, refusée, modifiée en temps réel. L'« agentic coding » introduit la délégation de tâches entières — scaffolding d'un module, écriture de tests — à un agent qui tourne en boucle jusqu'à satisfaire une contrainte.
Karpathy a publié cette grille sur son blog personnel, accompagnée d'un post sur X qui a généré plusieurs millions de vues en quarante-huit heures. Le timing n'est pas neutre : Cursor vient de lever 900 millions de dollars à une valorisation de 9 milliards, Windsurf a été racheté par OpenAI pour environ 3 milliards, et Anthropic pousse son mode « agent » dans Claude Code depuis mai. Nommer les pratiques, c'est aussi orienter le marché vers les outils qui correspondent au niveau le plus élevé de la taxonomie.
Février 2025, juin 2025
En février, quand Karpathy lance le terme « vibe coding » dans un tweet, il le présente comme un usage personnel, presque ludique : il code des side projects en laissant le LLM faire, sans regarder le code produit. Le ton est amusé, volontairement provocateur. Quatre mois plus tard, le même terme sert de socle à une classification qui se veut professionnelle et structurante. Le glissement est rapide. La communauté dev a entre-temps adopté le mot pour désigner à peu près tout ce qui implique un prompt et du code généré, ce qui a contribué à le vider de son sens. La taxonomie de Karpathy est aussi une tentative de reprendre le contrôle sémantique sur un terme qui lui a échappé.
Plusieurs développeurs expérimentés ont fait remarquer sur Hacker News et dans des newsletters spécialisées que les niveaux 2 et 3 du spectre — vibe coding supervisé et copilot-assisted — décrivent exactement la même chose pour quiconque utilise Cursor ou Copilot au quotidien. La frontière entre « je relis ce que le modèle a produit » et « je code avec des suggestions en temps réel » est poreuse dans la pratique. Un ingénieur de Shopify a noté que selon l'heure de la journée et la complexité du module, il passe d'un niveau à l'autre sans s'en rendre compte.
Ce que la grille ne couvre pas
La taxonomie est silencieuse sur la question de la responsabilité. Quand un agent produit du code qui passe les tests mais introduit une faille de sécurité subtile — un cas documenté à plusieurs reprises dans des études récentes de l'Université de Stanford et du NIST —, quel niveau de la grille est en cause ? Karpathy ne l'aborde pas. Il ne mentionne pas non plus les environnements réglementés : santé, finance, défense, où la traçabilité de chaque ligne de code n'est pas une option mais une obligation légale. Pour un DSI qui gère des applications soumises à NIS2 ou au AI Act européen, savoir qu'un développeur fait du « niveau 4 » ne suffit pas.
La notion même d'« agentic engineering » suppose une maturité des outils qui n'existe pas encore de façon stable. Claude Code, Devin, les agents de Cursor fonctionnent bien sur des tâches bornées — générer un CRUD, écrire des tests unitaires, refactorer un fichier isolé. Sur une base de code de 500 000 lignes avec des dépendances legacy, les retours terrain sont moins enthousiastes. Un architecte principal chez un éditeur SaaS français, interrogé dans un podcast récent, expliquait que ses équipes passent plus de temps à corriger les outputs des agents qu'à coder elles-mêmes sur les modules critiques.
La présentation de Karpathy a été publiée un jeudi soir, heure de San Francisco. Le vendredi matin, trois startups d'outils de développement avaient déjà intégré la taxonomie dans leur page marketing.
La question de la mesure
Ce qui manque le plus dans cette grille, c'est un critère de résultat. Les cinq niveaux décrivent des modes d'interaction, pas des niveaux de qualité du code produit. Un développeur senior en vibe coding supervisé peut produire un résultat plus robuste qu'un junior en agentic engineering, parce qu'il sait quoi vérifier et quand intervenir. Le spectre Karpathy classe l'intention, pas l'effet. C'est un choix de design intellectuel qui a ses mérites — il permet de parler d'usages sans porter de jugement —, mais qui le rend difficile à opérationnaliser dans une organisation.
Les études de productivité publiées par GitHub (sur Copilot) et par Google (sur leur outil interne) mesurent des gains de vitesse, pas de qualité. GitHub annonce 55 % de code écrit plus vite avec Copilot. Google a avancé que 25 % du nouveau code chez eux est généré par IA. Aucune de ces métriques ne dit quoi que ce soit sur le taux de bugs, la dette technique introduite, ou le temps passé en revue de code. Karpathy cite ces chiffres dans son post sans les interroger.
Simon Willison, développeur indépendant et voix respectée dans l'écosystème Python, a réagi en notant que le vrai enjeu n'est pas de savoir à quel niveau on opère, mais de savoir quand descendre d'un niveau — revenir à l'écriture manuelle parce que le modèle produit du code plausible mais faux.
« Le danger, c'est quand l'agentic engineering ressemble à du vibe coding déguisé en processus », a-t-il écrit.
Karpathy n'a pas répondu à cette remarque.
TL;DR
Karpathy formalise en cinq niveaux le spectre des pratiques de développement assisté par IA, du vibe coding brut jusqu'à l'ingénierie agentique — mais la grille classe les intentions, pas les résultats.
- La taxonomie distingue cinq modes d'interaction développeur-LLM, du prompt sans relecture à l'orchestration d'agents autonomes, dans un contexte de course entre Cursor, Windsurf/OpenAI et Anthropic.
- Les niveaux intermédiaires sont difficiles à différencier en pratique, et la grille ne couvre ni la responsabilité juridique, ni la qualité du code produit, ni les contraintes réglementaires européennes.
- Les métriques de productivité citées par l'industrie (GitHub, Google) mesurent la vitesse, pas la robustesse — un angle mort que la taxonomie Karpathy reproduit sans le questionner.
Questions fréquentes
Quelle est la différence concrète entre agentic coding et agentic engineering dans la grille Karpathy?
En agentic coding, le développeur délègue des tâches unitaires à un agent (écrire un module, générer des tests) et revoit les résultats. En agentic engineering, il définit des objectifs de plus haut niveau et orchestre plusieurs agents qui interagissent entre eux, avec une validation systémique plutôt que fichier par fichier. En pratique, la frontière dépend autant de la maturité des outils que de l'intention du développeur.
Cette taxonomie change-t-elle quelque chose pour les équipes de développement en entreprise?
Elle fournit un vocabulaire commun, ce qui peut aider à cadrer les discussions internes sur les pratiques autorisées ou recommandées selon les contextes (prototypage vs production, modules critiques vs non critiques). Mais elle n'intègre ni métriques de qualité, ni cadre de responsabilité, ni contraintes réglementaires — trois dimensions que les DSI devront ajouter eux-mêmes pour en faire un outil opérationnel.
Les outils actuels (Cursor, Claude Code, Copilot) permettent-ils réellement de fonctionner au niveau agentic engineering?
Sur des tâches bornées et des bases de code de taille modeste, oui. Sur des projets legacy complexes avec des centaines de milliers de lignes et des dépendances multiples, les retours terrain indiquent que le temps de correction des outputs d'agents peut annuler les gains de productivité. Le niveau 5 de Karpathy reste aujourd'hui plus un horizon qu'une pratique stabilisée.