Nate B. Jones

Software 3.0 : Andrej Karpathy vs McKinsey

23 juin 2025

Intelligence Artificielle
Illustration de Nate B. Jones

Introduction : La guerre entre consultants et bâtisseurs

Nate B. Jones

Il y a une guerre au cœur de l'IA entre les consultants en stratégie et les bâtisseurs. Je veux souligner comment cela est apparu de manière flagrante cette semaine entre Andrej Karpathy et McKinsey. Tous deux ont publié des présentations et des articles majeurs cette semaine. Je veux parler du contraste saisissant qu'ils ont exposé et pourquoi la vision d'Andrej est plus susceptible d'être correcte. Il est cependant important de comprendre les deux, car McKinsey a une influence considérable dans les conseils d'administration. Tout d'abord, comprenez le contexte de la présentation de Karpathy. Il s'adresse à un groupe d'entrepreneurs à la Startup School de Y Combinator.

Software 3.0 et les LLM comme systèmes d'exploitation

Nate B. Jones

Sa présentation s'intitule Software 3.0, un sujet pour lequel il est particulièrement qualifié car il a inventé le terme Software 2.0 il y a quelques années, je crois aussi chez YC. Il revient et dit en gros qu'il y a un nouveau paradigme, façonné évidemment par l'IA. Il passe beaucoup de temps dans la présentation, que je vais mettre en lien, à vous encourager à considérer l'IA comme un problème de conception unique en raison des propriétés des grands modèles de langage. Il parle des LLM comme des ordinateurs, des services publics et des systèmes d'exploitation. Il décrit en détail comment les LLM possèdent des qualités qui correspondent à ceux-ci. Par exemple pour les services publics, nous mesurons leur utilisation, dollars par jeton, de la même manière que nous mesurons l'électricité. Pour les systèmes d'exploitation, nous avons déjà entendu d'autres figures majeures de l'IA parler du fait que les jeunes en particulier utilisent l'IA comme un système d'exploitation. Vous avez des différences de préférence pour les systèmes d'exploitation, la guerre Windows contre Mac. De même, vous avez des différences de préférence pour Claude contre OpenAI. Vous voyez une partie de cette même dichotomie se jouer.

Les LLM comme simulations stochastiques de personnes

Nate B. Jones

Mais venons-en au cœur de Software 3.0. Software 3.0 est l'idea que le prochain langage de programmation est l'anglais et que nous ne travaillons pas avec des logiciels déterministes. Au lieu de cela, nous travaillons avec ce que Karpathy appelle des « esprits de personnes ». Des simulations stochastiques de personnes, c'est ainsi qu'il définit un LLM. J'adore cette expression. Je vais la garder et la partager souvent car elle m'aide à expliquer pourquoi les grands modèles de langage semblent si humains mais ne le sont pas. Cela explique pourquoi l'intelligence des grands modèles de langage semble si inégale. Ce sont des simulations stochastiques de personnes. Ce sont des esprits de personnes. Si nous construisons des logiciels pour ce genre d'interaction, pour des esprits de personnes, nous devons repenser de fond en comble la manière dont nous concevons nos logiciels.

Conception de logiciels et validation humaine

Nate B. Jones

C'est là qu'intervient la mise en garde d'Andrej, et je pense qu'elle est vraiment nécessaire à une époque où nous faisons tant de battage médiatique autour des agents. Il est vraiment important de considérer notre travail de construction au cours des six à dix-huit prochains mois comme une construction pour des esprits de personnes qui ont besoin d'une certaine supervision humaine pour aboutir à quoi que ce soit. Andrej est plus honnête à ce sujet que la plupart des autres figures majeures de l'IA que j'ai vues. Il ne fait pas de surmédiatisation en disant que les agents d'IA vont tout prendre en charge et être autonomes. C'est là que l'on voit un conflit précoce avec McKinsey. Ce que dit Andrej, c'est qu'essentiellement les esprits de personnes ou les LLM n'ont tout simplement pas une exécution fiable. Ils ont trop d'irrégularités dans leur intelligence pour être assez performants partout pour qu'on leur confie des tâches de haut niveau à ce stade. Au lieu de cela, nous devrions construire nos logiciels en partant de l'hypothèse que les humains devront être des validateurs dans la boucle, que l'IA peut générer et que les humains doivent valider. Nous devons penser au logiciel comme un problème de conception de ce point de vue. Il suggère deux façons de faciliter cela. La première est assez évidente : rendre la boucle de validation responsable de la vérification aussi simple que possible. C'est la base du logiciel. Mais la seconde est un peu plus controversée. Andrej suggère de tenir le LLM en laisse courte, en limitant délibérément la génération par l'IA afin de ne pas être submergé par une telle quantité de contenu généré que les évaluateurs n'y suffisent plus. Un exemple de cela serait l'IA générant des centaines de variantes publicitaires différentes, mais l'humain n'étant capable d'en valider que dix. Quel est l'intérêt ? Vous ne faites que gaspiller de l'énergie à ce stade.

Les limites du Vibe Coding et la complexité des systèmes

Nate B. Jones

J'apprécie son honnêteté sur ce front. Je ne pense pas qu'Andrej ait entièrement raison, ou du moins je ne suis pas d'accord avec lui sur le fait que l'anglais sera effectivement le seul langage de programmation du futur. Je pense en particulier qu'il y aura un besoin d'ingénieurs techniques solides qui comprennent la construction de systèmes complexes car les systèmes sont sur le point de devenir plus complexes à mesure que nous aurons des logiciels traditionnels interagissant avec ce logiciel augmenté par agent dont il parle. Cela ne va pas être aussi simple que l'anglais pilotant le code de bout en bout. Je comprends son point de vue en tant que personne qui a baigné dans l'ingénierie depuis le début et connaît son code sur le bout des doigts, la transition vers l'anglais est un changement fondamental. Il est, à son honneur, honnête quant aux limites de la révolution du « vibe coding » qu'il a lancée il y a quelques mois. C'est lui qui a lancé le terme vibe coding et engendré un millier de startups. Il dit très honnêtement que le vibe coding est génial actuellement pour les environnements locaux, mais qu'il y a beaucoup d'autres pièces dans le pipeline de déploiement, dans le CI/CD, dans les intégrations qui ne fonctionnent pas bien avec le vibe coding pour le moment. J'ai également apprécié cette honnêteté. Quand on additionne tout cela, ce qu'il dit fondamentalement nous laisse avec cette vision de Software 3.0 comme la construction d'armures Iron Man pour nous-mêmes où les agents étendent notre envergure, notre portée, notre contrôle. Nous devons concevoir nos systèmes de données pour s'adapter à la manière dont ils interagissent avec les données. Nous devons concevoir nos logiciels pour qu'ils soient adaptés aux agents. Nous devons réfléchir à des systèmes de contrôle des agents afin que vous puissiez avoir des agents interagissant avec les données et des personnes les validant dans une boucle durable. C'est un exposé sur la conception de logiciels vraiment intéressant. C'est évolutif et empirique. Parce que c'est un bâtisseur, on peut ressentir cette connaissance du terrain.

Critique de McKinsey et du concept de maillage agentique

Nate B. Jones

C'est la distinction fondamentale entre la présentation du Software 3.0 d'Andrej et la présentation de McKinsey, qui est très différente. McKinsey s'adresse aux PDG. Je comprends que Mistral ait approuvé la présentation de McKinsey. Tout tourne autour du « maillage agentique », c'est le thème. Le PDG de Mistral fait une belle introduction au début. Ce n'est pas une attaque contre Mistral. Ils font un travail difficile, ils produisent d'excellents logiciels. Mais McKinsey, en raison de la façon dont ils s'adressent à leur public, n'est pas capable d'articuler quoi que ce soit de réalisable pour les équipes techniques. C'est le problème fondamental. Je comprends qu'ils veuillent communiquer aux PDG qu'il est important de penser en termes de flux de travail et pas seulement en termes de tâches automatisées par les LLM. Si vous pensez aux agents, vous devez penser à l'autonomie. Le problème réside lorsqu'ils passent des concepts généraux pour essayer de suggérer une solution. Le maillage agentique est une salade de mots qui n'a aucun fondement empirique. Il n'a pas la touche du bâtisseur. C'est ce qui rend cette présentation si préoccupante. J'ai vu maintes et maintes fois, en tant que personne du côté de l'ingénierie produit, un PDG arriver tout juste après un rapport comme celui-ci et penser que cela devrait fonctionner tout seul. Les gars de chez McKinsey disent qu'ils peuvent construire un maillage agentique et que vous pouvez brancher n'importe quel modèle sans travail supplémentaire. Pourquoi n'utilisons-nous pas Mistral Small ? Ou pourquoi n'utilisons-nous pas GPT-3.5 Turbo ? Parce que McKinsey l'a mentionné. Les deux sont dans la présentation, d'ailleurs. Les équipes techniques lèvent les yeux au ciel parce qu'elles se disent : ce sont des modèles obsolètes. Ils sont minuscules. Cela repose sur cette hypothèse d'edge computing qui ne s'est pas très bien vérifiée car les modèles plus grands montrent des gains d'intelligence soutenus que les modèles plus petits n'égalent pas. C'est l'une des grandes surprises de 2025 : l'edge computing pour les modèles ne fonctionne pas encore aussi bien qu'on le pensait. À son crédit, Andrej pense toujours qu'il y a de la place pour l'edge computing. Nous verrons bien. Apple a fait un gros pari là-dessus au début de l'année dernière et cela n'a pas vraiment payé. Cela reste à voir.

La fiction commerciale vs la réalité technique

Nate B. Jones

Je ne veux pas nous entraîner dans un débat sans fin sur l'edge computing. Le point pour McKinsey est qu'ils devraient être capables de recommander quelque chose qui soit réellement réalisable. Si vous recommandez ce qui est effectivement un substrat théorique pour les agents qui leur permet de se brancher comme des ports USB et que n'importe quel agent peut se brancher et que vous pouvez brancher n'importe quelle donnée, c'est une fiction pour un PDG. Cela permet à un PDG de bien dormir la nuit. Ce n'est pas vrai. Ce n'est pas ainsi que l'on construit réellement les choses. Je comprends qu'il faille simplifier les concepts techniques en un récit commercial pour les conseils d'administration. Je comprends qu'il faille avoir des résultats faciles à comprendre pour les non-techniciens. Il est possible de prendre le Software 3.0 d'Andrej Karpathy ou une vision technique similairement claire et de raconter de bonnes histoires commerciales. Vous n'avez pas besoin de recourir au genre de salade de mots que McKinsey utilise pour communiquer un récit commercial clair. Le fait qu'ils racontent une histoire qui n'est pas réelle à la base, car on ne peut pas simplement brancher des agents comme des ports USB sans modification de n'importe quelle source et les insérer dans des données en s'attendant à ce que tout fonctionne magiquement, est un problème. Cela ne fonctionne pas ainsi. Si vous vendez cette vision, ce que vous vendez, c'est la raison pour laquelle tant d'entreprises s'éloignent de l'IA après un investissement et pourquoi tant de projets d'IA en entreprise ne voient pas le jour. C'est à cause de conseils comme celui-ci.

Conclusion : Dire la vérité sur la complexité de l'IA

Nate B. Jones

Une partie de la raison pour laquelle je m'en prends un peu à McKinsey est que j'ai besoin que les personnes qui ont l'oreille des dirigeants et des conseils d'administration disent la vérité sur la construction de l'IA, qu'elles disent la vérité sur la complexité des systèmes d'IA, que oui, il y a une loi de puissance des bénéfices. Si vous investissez et obtenez une véritable IA dans des systèmes agentiques et que vous pouvez les mettre en œuvre au niveau de l'entreprise, il y a beaucoup d'argent en jeu. C'est important. Mais il est difficile d'y arriver. Et si vous débutez, ce n'est peut-être pas par là que vous voulez commencer. Vous ne voulez pas nécessairement commencer par automatiser toute votre gestion de la relation client ou par automatiser toutes vos commandes de détail et vos retraits. Ce que vous voulez faire, c'est vous concentrer sur une dynamique progressive, décrire le changement culturel que vous souhaitez et commencer à l'incarner. C'est ce que je veux vous laisser aujourd'hui. Quel est le changement culturel qu'Andrej suggère que nous devons créer dans nos organisations pour nous permettre de penser en termes de Software 3.0, pour nous permettre de penser et de nous rapporter aux LLM non pas comme des personnes, non pas comme des programmes, mais comme des simulations stochastiques de personnes dans un contexte probabiliste ? Il y a une psychologie émergente des LLM qu'il est pertinent d'aborder même si la psychologie n'est pas réelle parce qu'il s'agit de simulations. Nous pouvons toujours en parler et la comprendre, et cela peut être une fenêtre pour nous permettre de comprendre comment des agents probabilistes interagissent avec notre infrastructure logicielle. Il y a beaucoup à explorer, mais je préférerais de loin que nous nous penchions sur ce qui se passe réellement et que nous racontions des histoires commerciales qui ont du sens, plutôt que d'aller du côté de McKinsey pour prétendre que tout est facile et se retrouver dans une position où les entreprises se lancent dans l'IA et abandonnent car elles découvrent tardivement que c'est bien plus difficile que ce que dit la présentation du conseil d'administration. Il n'est tout simplement pas vrai que l'on peut brancher des agents n'importe quand. Il n'est tout simplement pas vrai que ces minuscules petits modèles locaux feront tout ce que vous voulez sans être déclassés par le prochain grand modèle qui arrivera. Nous devons mieux dire la vérité à tous les niveaux. Je remercie Andrej d'avoir fait de son mieux pour exposer cela et je demande à des organisations comme McKinsey de prendre une position plus ferme à cet égard. Qui je leurre ? Ils ne vont pas m'entendre. Ils ne vont pas écouter. Ce n'est pas grave. Je peux toujours demander. Je peux toujours attendre une meilleure réponse au défi de l'IA. Santé.