John Schulman

L'évolution de la recherche en IA : d'OpenAI à Thinking Machines

17 décembre 2025

Intelligence Artificielle
Illustration de John Schulman

Les origines et le potentiel de ChatGPT

Michael Truell

Si le groupe de personnes qui a lancé OpenAI était revenu en 2015, 2016 et avait voulu accélérer la construction de ChatGPT, à quelle vitesse auraient-ils pu le faire ? Et quels seraient les goulots d'étranglement qui les auraient empêchés d'aller encore plus vite ? Et quels choix ce groupe ferait-il qui seraient différents de ce qui s'est réellement passé ?

John Schulman

Si vous vouliez créer ChatGPT avec beaucoup moins de calcul, vous le pourriez. Nous avons vu des choses comme NanoGPT qui le font. Parfois, il est plus facile de faire quelque chose avec plus de calcul, mais ensuite, en ajoutant des astuces astucieuses, on peut le faire avec moins de calcul. Nous aurions pu passer à l'échelle beaucoup plus rapidement, ou il aurait été possible de passer à l'échelle si nous avions su que les rendements seraient ce qu'ils étaient. Si vous aviez voulu le faire beaucoup plus tôt, si vous aviez eu toute la recette en tête, vous auriez pu le construire beaucoup plus tôt. Vous pourriez assembler un grand cluster et pré-entraîner un modèle. Compte tenu de tout ce que nous savons maintenant sur le post-entraînement, vous pouvez augmenter efficacement votre calcul en faisant mieux le post-entraînement. Même s'il faut un modèle de niveau GPT-3 pour créer un bon modèle de chat avec quelques exemples, si vous êtes prêt à faire beaucoup de réglages fins et à construire l'ensemble de données de réglage fin de manière intelligente, vous pouvez obtenir un modèle beaucoup plus petit qui soit très bon.

Michael Truell

Combien de personnes pensez-vous que cela aurait nécessité ? Et en quelle année pensez-vous que cela aurait pu être fait ? Et combien de GPU ?

John Schulman

En supposant un recul total, NanoChat est programmé par une seule personne et fonctionne sur une seule machine. Cela a pris six mois à écrire. C'est sur des H100 et nous aurions eu des V100 ou quelque chose de plus ancien. Nous aurions pu mettre en réseau quelques boîtiers GPU. Vous auriez pu obtenir quelque chose du niveau de ChatGPT 3.5 dès 2018 ou 2019 avec quelques personnes. Si vous aviez quelques personnes talentueuses travaillant pendant un an environ avec un recul total, vous obtiendriez quelque chose. Cela s'appuie également sur des ensembles de données de pré-entraînement et des collectes de données que d'autres personnes ont réalisées. On pouvait faire quelque chose dès 2018 ou 2019 avec quelques personnes qui atteindrait le niveau de GPT-3.5. À l'avenir, il y aura une version de démonstration de ChatGPT sous forme d'un seul fichier qui entraîne tout, parcourt le web et fait tout en une journée d'entraînement.

Les débuts d'OpenAI et la culture de recherche

Michael Truell

OpenAI est l'une des plus grandes entreprises au monde aujourd'hui du point de vue de la capitalisation boursière et, parmi les entreprises technologiques, peut-être de l'investissement CapEx. Il est facile de perdre de vue à quel point c'était un groupe informel et hétéroclite à ses débuts. Semblait-il très réduit et informel en 2016 et 2017 ? Quel a été l'un des faux départs sur lesquels le groupe a travaillé ? Un projet qui a été une impasse totale et dont on ne parle pas beaucoup en 2025.

John Schulman

Au début, c'était un groupe académique hétéroclite. Il y avait différents projets de recherche sur lesquels les gens travaillaient selon leurs propres goûts. Les gens travaillaient par groupes de un, deux ou trois sur un type de projet de recherche qui se transformait en article ou en billet de blog. Les premières années d'OpenAI avaient cette saveur. Il y avait aussi l'idée de grands projets et le fait que, par rapport au milieu universitaire, nous pourrions aller plus loin en faisant de l'ingénierie sérieuse et en réunissant des groupes plus importants. Cette idée nous a accompagnés tout le temps, et nous avons été influencés par DeepMind qui avait été pionnier dans cette façon de travailler avec des projets comme AlphaGo. L'entreprise était un mélange de ces petits projets de recherche et de projets plus importants où l'idée était de réunir des chercheurs et des ingénieurs. Tous les projets n'ont pas réussi. Beaucoup de projets de recherche n'ont abouti à rien. La norme est qu'un projet ne finisse pas par faire partie de la branche principale de l'arbre technologique. Certains des plus gros projets n'ont peut-être pas abouti. Il y avait un projet précoce appelé Universe où l'idée était de créer de nombreux environnements de RL différents et de construire un ensemble de données à partir d'eux. Si vous vous entraîniez conjointement sur tous ces environnements, vous généraliseriez à d'autres choses et obtiendriez un agent de RL généraliste. Nous allions collecter différents jeux vidéo et des tâches de navigation web. C'était une idée profondément juste mais en avance d'une décennie. Les prérequis manquaient à l'époque. Les gens ont construit ce système et ont commencé à faire des expériences dessus, mais le système était lourd et peu adapté aux expériences de RL. Comme nous entraînions des modèles à partir de zéro, ces modèles ne généralisaient pas bien. Cela a fini par être un échec. Nous avons tiré davantage de profit de versions à portée plus réduite. J'ai dirigé l'équipe travaillant sur la recherche en apprentissage par renforcement pendant quelques années et nous nous sommes concentrés sur des jeux vidéo émulés, ce qui était beaucoup plus propice au travail. La robotique a fini par être une impasse pour l'entreprise mais a été utile à long terme en renforçant la capacité à réaliser de grands projets d'ingénierie et en formant les gens à ce travail.

Ingénierie et infrastructure chez OpenAI

Michael Truell

À quoi ressemblaient les plus grands projets d'ingénierie avant 2020 pour OpenAI ? Quel était l'état global de l'infrastructure de recherche ? Y avait-il un système particulier qui était utile, compliqué ou qui causait des problèmes aux chercheurs ?

John Schulman

Il y avait une poignée de ces grands projets de recherche comme le projet de robotique et Dota a été le premier grand projet réussi avec beaucoup de calcul. Ces projets étaient une combinaison de travaux sur les systèmes de ML et de recherche sur le RL dans un certain régime.

Michael Truell

Quels étaient les projets d'ingénierie sous-jacents ? S'agissait-il de la manière dont vous vous connectez à Dota et le contrôlez par programmation, de l'infrastructure d'entraînement ou d'autre chose ?

John Schulman

Il y aurait à la fois l'infrastructure de l'environnement, la façon dont vous vous connectez au logiciel ou construisez l'environnement d'entraînement, et un système d'entraînement qui est idéalement découplé de cela. Cela impliquerait de réaliser des déploiements à grande échelle et un entraînement en parallèle, peut-être du RL asynchrone.

Management de la recherche et modèles institutionnels

Michael Truell

Quel est le gestionnaire de recherche idéal ? De plus en plus de big science est faite en ML, ce qui nécessite plus de coordination. Les personnes gérées forment un ensemble de personnalités. C'est un domaine nouveau, donc il n'y a pas beaucoup de personnes ayant une spécialité technique qui veulent aussi se lancer dans le management. D'après votre expérience, qu'est-ce qui fonctionne et qu'est-ce qui ne fonctionne pas dans le rôle de gestionnaire de recherche ? Quel est l'idéal pour ce rôle ?

John Schulman

J'ai vu des gens adopter différentes approches et réussir. Le domaine change, et ce qui fonctionnait il y a sept ou huit ans n'est peut-être plus la bonne approche aujourd'hui. Dans un modèle, la personneresponsable est impliquée, écrit du code, lit le code de ses collaborateurs et donne des commentaires techniques détaillés. J'ai également vu des groupes avec un gestionnaire moins interventionniste qui agit comme un conseiller, donnant des conseils de carrière plutôt que des conseils techniques détaillés, gardant les gens motivés et les laissant faire leur propre truc. Les deux modes de fonctionnement marchent. Si vous faites de la recherche exploratoire et avez des personnes expérimentées, il est logique d'être moins interventionniste. Si vous êtes orienté vers un objectif ou si vous avez des personnes moins expérimentées essayant d'exécuter des choses spécifiques, il est plus logique que le gestionnaire soit impliqué et assure une supervision technique.

Michael Truell

Est-ce qu'OpenAI a emprunté le terme "membre du personnel technique" aux Bell Labs ? Un ancien cadre de recherche d'OpenAI a déclaré qu'ils ne s'étaient pas inspirés des laboratoires de recherche industriels du passé comme Xerox PARC ou Bell Labs. Ces institutions étaient-elles des endroits dont on parlait chez OpenAI ? Les gens se sont-ils inspirés de certains groupes, ou tout a-t-il été improvisé ?

John Schulman

Certaines personnes ont pu être inspirées par des laboratoires de recherche passés. En pratique, nous nous sommes inspirés des endroits où nous avions travaillé auparavant. La plupart d'entre nous avaient un parcours passant par l'université, Google Brain ou DeepMind. Presque tout le monde avait travaillé chez Google, nous avons donc été influencés par leur façon de faire là-bas. Je me souviens de discussions sur le projet Manhattan et d'autres institutions de ce type. Je ne me souviens pas d'un effort délibéré pour analyser les institutions de recherche prospères du passé et s'appuyer sur leurs forces.

Comparaison des environnements de recherche

Michael Truell

Comment caractériseriez-vous les différences entre l'université, OpenAI, Anthropic, Thinking Machines et Google ? Quels types de problèmes ces environnements sont-ils les mieux adaptés à résoudre ? Qu'est-ce qui est peu discuté à propos de ces environnements de recherche et quels problèmes sont-ils conçus pour résoudre ?

John Schulman

Il y a des similitudes entre les débuts d'OpenAI et Thinking Machines. Plusieurs choses différentes sont travaillées en parallèle, et nous façonnons toujours la vision de l'entreprise. Le domaine évolue rapidement maintenant, et d'autres entreprises avancent vite. Il y a une pression pour rattraper l'état de l'art parallèlement aux nouvelles choses que nous voulons faire chez Thinking Machines. Dans les premiers jours d'OpenAI, le domaine ne concourait pas dans une direction cohérente. Au-delà de la mise à l'échelle du RL et de la découverte de meilleures architectures, il n'y avait pas de direction claire. C'était comme une période de paix aux débuts d'OpenAI, ce qui a conduit à des travaux exploratoires. Les entreprises qui ont démarré récemment sont obligées d'être en mode rattrapage pour reproduire l'état de l'art. J'ai essayé de m'assurer que nous ne sommes pas seulement en mode rattrapage et que nous renforçons nos capacités autour de la recherche exploratoire et de nouvelles idées en dehors du chemin principal. Si vous êtes en mode rattrapage, il est plus difficile de développer une capacité de recherche exploratoire et la culture adéquate plus tard.

Défis techniques en RL : Fonctions de valeur et apprentissage continu

Michael Truell

Pourquoi les fonctions de valeur ne sont-elles pas populaires en RL en ce moment ?

John Schulman

Les fonctions de valeur ne semblent pas beaucoup aider dans les contextes où les gens font du RL actuellement, comme le RL à partir de commentaires humains et le RL sur des récompenses vérifiables. Si vous échantillonnez des dizaines de milliers de jetons, c'est un horizon temporel long. Les fonctions de valeur permettent une réduction de la variance, mais pour une raison quelconque, on n'obtient pas beaucoup de réduction de la variance sur cet ensemble de tâches. On obtient une meilleure réduction de la variance sur d'autres tâches utilisées pour la recherche en RL. Je m'attends à ce que les fonctions de valeur fassent un retour à un moment donné.

Michael Truell

Quelle est votre meilleure estimation de la façon dont nous résolvons l'apprentissage continu ? Et pensez-vous que LoRA y jouera un rôle ?

John Schulman

L'apprentissage continu implique différents types d'apprentissage comme l'apprentissage moteur, la mémoire épisodique et la mémoire procédurale. Je m'attends à ce que les méthodes en contexte ou la gestion du contexte s'améliorent et que les capacités de contexte long restent importantes. LoRA ou le réglage fin des paramètres s'ajouteront à cela et seront plus adaptés aux types de mémoire nécessitant beaucoup de capacité et de connaissances.

Michael Truell

Pensez-vous que nous aurons besoin d'idées autres que de mettre les bonnes choses dans la fenêtre contextuelle, puis d'un peu de réglage fin des paramètres par-dessus pour résoudre le problème suivant : nous déployons ces systèmes dans le monde et nous voulons qu'ils apprennent de nouvelles choses à la volée ?

John Schulman

Si nous continuons à mettre les modèles à l'échelle et à les améliorer, les mesures continueront de s'améliorer. Même si nous ne changeons pas nos méthodologies, nous finirons par résoudre ces problèmes. Il est probable que de nouvelles idées résoudront ces mêmes problèmes plus rapidement et pourraient fournir une loi d'échelle différente. D'autres méthodes pourraient offrir une meilleure loi d'échelle ou un apprentissage continu plus rapide et plus efficace. Le réglage fin des paramètres devrait aider dans un régime intermédiaire. L'apprentissage en contexte aidera dans un régime d'horizon court, mais les mises à jour de poids l'emporteront sur un horizon temporel plus long.

Généralisation et futur des modèles d'IA

Michael Truell

Craignez-vous qu'une généralisation fragile soit un obstacle à l'obtention d'une IA générale fonctionnant dans tous les domaines du travail intellectuel ? Le pré-entraînement ne nous mènera-t-il que jusqu'à un certain point, tandis que le RL fonctionne pour les distributions sur lesquelles il est entraîné sans un excellent transfert ?

John Schulman

Il est difficile de s'exprimer clairement sur la capacité de généralisation des modèles et sur la comparaison de leur efficacité d'échantillonnage avec celle des humains. Les modèles d'apprentissage en contexte peuvent avoir une efficacité d'échantillonnage comparable à celle des humains. Certains entraînements nécessitent plus de données que ce qu'il faut aux humains pour apprendre. Les modèles sont plus fragiles que les humains. Les humains sont plus performants sur des échelles de temps plus longues parce que nous avons été optimisés par l'évolution pour fonctionner sur un horizon de 80 ans. Nous avons des mécanismes d'autocorrection. Si vous donnez aux gens un objectif et une motivation, ils sont ingénieux. Les modèles peuvent être persistants mais ont tendance à se bloquer plus facilement sur de gros morceaux de travail. Il est difficile de dire s'il s'agit d'un phénomène temporaire ou d'une faiblesse fondamentale. Si nous parlons d'un horizon temporel de plusieurs décennies, il faut des décennies pour évaluer les modèles.

Michael Truell

Dans un monde où il devient populaire de co-entraîner des modèles, où vous avez un générateur résolvant des problèmes de RL et des juges évaluant les récompenses, des idées provenant des GAN des années 2010 ou d'autres idées oubliées seront-elles utiles ?

John Schulman

Le co-entraînement de générateurs et de vérificateurs a du sens. Si vous avez un modèle qui fait du raisonnement et suit des instructions dans le cadre de la vérification, cela fournit un signal d'apprentissage au modèle génératif. À mesure que le modèle s'améliore en raisonnement, il devient un meilleur vérificateur, créant un cycle vertueux. J'aime beaucoup l'entraînement multi-agents ou les jeux. Concevoir des jeux de manière à ce que l'équilibre soit intéressant vous donne un programme automatique ; si vous jouez contre des copies de vous-même, vos adversaires s'améliorent en même temps que vous. Il y a des raisons théoriques en informatique pour lesquelles la mise en place de jeux est une bonne idée. Les classes de complexité définies par des jeux à somme nulle à deux joueurs montrent qu'un processus peu coûteux peut créer une incitation où l'équilibre implique la résolution d'un problème difficile. Le jeu de débat dans la littérature sur l'alignement est convaincant. Je m'attends à ce que ce genre d'idée devienne plus important.

Utilisation personnelle de l'IA et habitudes de recherche

Michael Truell

Comment utilisez-vous personnellement l'IA ?

John Schulman

J'utilise l'IA pour le codage. J'utilise Cursor, Claude Code et d'autres outils. J'ai des fenêtres de chat ouvertes avec différents modèles et je leur pose des questions plusieurs fois par jour.

Michael Truell

Comme le genre de questions pour lesquelles on irait sur Wikipédia ? Ou est-ce que vous les impliquez réellement dans le processus de recherche ?

John Schulman

J'utilise des modèles pour la recherche. Si j'ai une idée, je demande à GPT-5 Pro de faire des recherches documentaires. Si j'ai une idée vague, j'écris un paragraphe et je dis au modèle de l'étoffer. La capacité de recherche documentaire est extrêmement utile car il fallait auparavant plus de temps pour trouver la littérature pertinente et les bibliothèques open source. J'utilise des modèles pour trouver de la documentation et itérer sur des idées. Je les utilise aussi pour avoir des retours sur mes écrits. Je fais l'essentiel de la réflexion moi-même et j'utilise les modèles de chat pour un premier tour de commentaires.

Michael Truell

À quoi ressemble une journée de votre vie quand vous faites de la recherche ? Travaillez-vous sans interruption, ou par courtes rafales avec du temps pour réfléchir ? À quoi ressemble une journée de John Schulman ?

John Schulman

Je vais dans des cafés pour réfléchir, là où il y a de l'animation. Je m'assois avec un carnet, je note des idées et je supprime les distractions. Je fais cela pendant la phase de formation des idées. Quand un projet est en mode exécution, je passe plus de temps à coder ou à lire des documents et des messages des autres. Je passe beaucoup de temps à conseiller des recherches et à examiner le travail des autres.

Michael Truell

Pensez-vous que les compétences nécessaires pour effectuer une recherche efficace en 2019 ou 2020 sont les mêmes qu'aujourd'hui ? Et en particulier, vous avez écrit ce billet de blog en 2020 sur la façon de faire de la recherche efficace et je suis curieux de savoir si vous avez des recommandations mises à jour pour les gens ou si vous pensez globalement que cela résiste à l'épreuve du temps.

John Schulman

Dans mon billet de blog, j'ai abordé la recherche orientée vers un but par rapport à la recherche guidée par les idées, la tenue d'un carnet de recherche et le développement du goût en lisant des articles. Ces conseils tiennent toujours. Tenir un carnet de laboratoire est plus utile maintenant grâce aux LLM. Vous pouvez coller votre carnet dans un LLM pour obtenir des commentaires. Le plus grand changement est l'intégration des LLM dans votre travail. Les conseils pour la recherche peuvent être différents de ceux pour le génie logiciel car il est utile de comprendre chaque ligne de code plutôt que de laisser un modèle écrire du code que vous n'avez pas lu. Le codage assisté par l'IA fonctionne bien dans d'autres domaines où vous définissez la spécification, mais pour la recherche, il est précieux de savoir exactement ce qui se passe dans chaque ligne de code. Les personnes qui ont fait le meilleur travail ont une compréhension des rouages internes.

État de la recherche en IA et publication académique

Michael Truell

Depuis 2020 et l'avènement des lois d'échelle, beaucoup plus de chercheurs sont entrés dans le domaine du ML. Il semble que le taux de génération de grandes idées marquantes soit resté constant. Les progrès ont été considérables dans la construction de systèmes utiles, mais ces systèmes reposent sur quelques grandes idées et de nombreux détails. Comment expliqueriez-vous que la génération d'idées marquantes soit constante alors que le nombre de chercheurs a été décuplé ou centuplé ?

John Schulman

Quantifier le rythme du progrès scientifique est délicat car les fruits les plus accessibles sont cueillis et il est difficile de mesurer le rythme du progrès dans un passé récent car on ne sait pas quelles idées sont importantes. J'hésiterais à conclure que le rythme de progression est constant. Dans les articles des années 70, 80 et 90, la rigueur expérimentale était moindre. Les normes ont augmenté pour la rigueur expérimentale, les méthodes de référence et les expériences sur différentes tâches. Dans le passé, un article séminal sur le RL pouvait n'avoir qu'une seule expérience sur une tâche simpliste. Les idées mathématiques n'étaient pas aussi sophistiquées. Je ne serais pas surpris si le rythme de génération d'idées a augmenté et si le niveau de qualité s'est élevé à mesure que plus de personnes sont entrées dans le domaine.

Michael Truell

Est-ce que cela correspond à votre intuition ? Je dirais que ce serait mon intuition, oui.

John Schulman

Il y a des problèmes avec le système de publication académique et l'examen par les pairs, ce qui est frustrant. Ce n'est pas terrible car le domaine est porté par des améliorations objectives observées dans la réalité. Le domaine est guidé par des objectifs réels et des problèmes réels, ce qui l'ancre. Même s'il y a des problèmes et des recherches bidon, globalement le domaine progresse.

Michael Truell

Comment le système de publication académique se compare-t-il au système de coordination interne des grandes entreprises d'IA et à leurs canaux Slack ? Y a-t-il quelque chose à emprunter à la façon dont fonctionne une organisation de recherche de mille personnes dans l'une de ces entreprises qui puisse être transposé dans le monde académique ouvert ?

John Schulman

La présentation interne des résultats dans les grands laboratoires de recherche est meilleure à certains égards et moins bonne à d'autres que dans le monde de l'édition. C'est mieux pour l'exactitude des conclusions sur des choses comme ce qui améliore le pré-entraînement. Les gens ont de meilleures méthodologies et les expériences sont motivées par les conséquences plutôt que par la simple publication d'un article. Les entreprises prospères ont réussi à tirer des conclusions plus précises. Personne n'écrit de rapports techniques détaillés atteignant le niveau de détail de ce qui est publié à l'extérieur. Bien que le niveau de précision global soit plus élevé, la minutie des expériences est généralement moindre dans la recherche interne. Les articles académiques ont des références qui sont parfois affaiblies, mais les meilleurs travaux sont approfondis et font de bonnes comparaisons de référence. Les comptes rendus sont plus détaillés dans le monde extérieur, offrant plus de minutie mais moins de précision. J'ai souhaité améliorer la culture de rédaction de recherche dans ces institutions pour encourager des rapports techniques plus détaillés qui vont plus loin dans la science plutôt que de faire le strict minimum pour trouver une amélioration de recette exploitable. C'est un défi car les incitations des entreprises ne sont pas toujours de construire une théorie et de faire de la science approfondie.

Évolution des talents en IA

Michael Truell

Comment les personnes entrant dans le domaine ont-elles évolué depuis 2015 ? Étaient-elles plus ou moins qualifiées, de meilleurs ingénieurs ou plus créatives ? Y a-t-il une différence entre les personnes attirées par ce travail à l'époque et celles qui y entrent aujourd'hui ?

John Schulman

Les gens étaient plus atypiques à l'époque. Maintenant, il est de notoriété publique que l'IA est la chose la plus importante, elle attire donc des personnes ayant des parcours de carrière plus conventionnels et moins tolérantes au risque. Auparavant, les gens étaient plus originaux ; maintenant, il y a plus de personnes à l'esprit conventionnel. La barre est devenue plus haute car beaucoup de gens essaient d'entrer dans le domaine. Les compétences en ingénierie sont plus importantes aujourd'hui qu'auparavant par rapport au goût pour la recherche et à la capacité à mener des recherches exploratoires. La mise à l'échelle d'idées simples a permis de nombreuses améliorations, et il y a des opportunités faciles à saisir en les exécutant bien. Le domaine a mûri, vous n'écrivez donc plus de code à partir de rien dans un carnet Jupyter, mais vous vous appuyez sur la base de code et l'infrastructure de quelqu'un d'autre. Les personnes ayant une formation en génie logiciel ont un avantage maintenant.

Futur du RL et délais de l'AGI

?

À quoi ressemble l'avenir de la recherche en RL ? Au cours des 10 dernières années, des sujets sont apparus et disparus. Ce qui a fonctionné sur les LLM a été assez simple et proche d'idées qui ont fonctionné dans d'autres domaines. Y a-t-il encore beaucoup à faire dans la recherche en RL ? Est-ce que les systèmes LLM de RL les plus performants dans quelques années seront différents des vieilles idées ?

John Schulman

Certaines idées deviennent et cessent d'être à la mode. Elles peuvent devenir à la mode trop tôt, ne pas tenir leurs promesses, puis revenir plus tard. Le RL hors ligne est un ensemble d'idées intéressantes. Ce que nous faisons dans le monde des LLM ressemble au passage de la simulation au réel en robotique, où l'on construit des environnements simulés et où l'on fait du RL sur ceux-ci à grande échelle avec assez de diversité pour généraliser au monde réel. Le passage de la simulation au réel donne toujours de bons résultats en robotique. C'est une technique efficace, mais il est également utile d'apprendre du monde réel. Je m'attends à ce que cela revienne dans le monde des LLM, où nous trouverons comment apprendre d'un déploiement réel.

?

Si les plus grands laboratoires d'IA développent des systèmes d'IA puissants, il sera important de se coordonner les uns avec les autres et avec d'autres institutions comme les gouvernements. Dans quelle mesure êtes-vous convaincu qu'ils se coordonneraient bien pour l'avenir de l'IA, et dans quelle mesure craignez-vous qu'ils ne s'entendent pas ?

John Schulman

Je suis moyennement inquiet. Il y a une communauté de vue et de vision raisonnable entre les principaux laboratoires d'IA. Je pourrais les voir collaborer, et il y a eu des collaborations récemment sur la sécurité. Il y a quelques tensions entre les personnalités impliquées, ce qui pourrait rendre les choses plus difficiles, mais cela pourrait s'arranger s'il devenait clair que c'est la chose à faire.

?

La technologie s'améliore vite. On parle de prédictions sur le moment où l'AGI arrivera, souvent définie comme le fait que tout travail intellectuel informatisé soit effectué par l'IA. L'AGI est un grand projet d'ingénierie et, d'après mon expérience, les ingénieurs et les chercheurs sont mauvais pour estimer quand ils termineront des projets plus modestes. Le biais systématique que j'ai observé est qu'ils supposent qu'ils finiront beaucoup plus tôt. J'applique un facteur de 3 à leurs prédictions. Est-ce une critique raisonnable des délais de l'AGI ? Les chercheurs et les ingénieurs sous-estiment-ils le temps que prennent les choses ? D'après votre expérience, les chercheurs et les ingénieurs ont-ils été bons pour estimer les délais des projets ?

John Schulman

Il y a un biais constant à sous-estimer les délais, peut-être de 2 ou 3 fois dans le meilleur des cas. En utilisant cette heuristique, il est raisonnable de prédire que l'AGI sera plus lointaine que ne le prévoient les calendriers. Nous l'avons vu avec les voitures autonomes, qui ont mis plus de temps que prévu pour atteindre l'autonomie totale et les robotaxis. C'est une hypothèse raisonnable. D'un autre côté, il y a une boucle de rétroaction positive où l'IA accélère son propre développement, ce qui défiera l'intuition. Les personnes qui intègrent cet effet avancent des délais courts, et c'est un raisonnement convaincant. Il y a une incertitude sur le gain apporté par l'IA et s'il y a des goulots d'étranglement concernant la compréhension humaine de ce qui se passe. Je ne ferais pas de prédiction confiante dans un sens ou dans l'autre.

Thinking Machines et le projet Tinker

?

Donc, vous et Thinking Machines avez sorti Tinker. Qu'est-ce que c'est et à qui cela s'adresse-t-il ?

John Schulman

Tinker est une API de réglage fin de bas niveau qui vous donne un ensemble de primitives pour effectuer l'entraînement et l'échantillonnage. Elle vous permet d'exprimer presque tous les algorithmes de post-entraînement sans vous soucier des GPU, des accélérateurs ou des problèmes de systèmes distribués. Elle fait abstraction d'une couche et construit cela comme un service. Les gens n'utilisent généralement pas de services pour l'entraînement au ML ; les services existants sont de bien plus haut niveau. C'est un nouveau service autour d'une primitive de plus bas niveau. L'analogie la plus proche serait les API d'échantillonnage d'OpenAI et d'Anthropic où vous ne lancez pas votre propre machine GPU mais passez un appel d'API. Tinker vous permet d'écrire du code d'entraînement en écrivant des scripts Python et de faire en sorte que cela fonctionne sans installer de logiciel pour fonctionner sur des GPU.

?

Votre ambition est-elle que la prochaine Thinking Machines lancée par un groupe de chercheurs s'appuie en fait simplement sur Tinker ?

John Schulman

J'espère que des entreprises s'appuieront sur Tinker au lieu de développer leur propre infrastructure et construiront des modèles personnalisés sophistiqués dessus. Tinker est destiné aux personnes qui ont des connaissances pointues en ML et qui souhaitent utiliser des primitives de bas niveau. Nous livrons du code open source avec Tinker, vous n'avez donc pas à écrire tous les algorithmes d'entraînement vous-même. Tinker est idéal pour les personnes qui veulent entrer dans les détails. Avec le temps, nous le rendrons plus convivial et construirons des outils et des composants de plus haut niveau pour qu'il devienne une solution complète. Il ne sera pas nécessaire d'être un expert pour l'utiliser ; vous pourrez arriver avec votre compréhension d'un problème métier ou la spécification d'un modèle et le logiciel le construira pour vous.

?

Et puis, que devons-nous attendre de Thinking Machines au cours de la prochaine année ? Quelque chose que vous pouvez partager publiquement ?

John Schulman

Nous sortirons nos propres modèles l'année prochaine. Attendez-vous à ce que nous continuions à améliorer Tinker, en ajoutant plus de fonctionnalités comme l'entrée et la sortie multimodales et en augmentant la taille des tâches.

?

Merci, John. C'était un plaisir.

John Schulman

Merci de m'avoir reçu.