Andrej Karpathy - Discussion sur Whisper, ArXiv Sanity et le futur de la création de contenu

Andrej Karpathy

Discussion sur Whisper, ArXiv Sanity et le futur de la création de contenu

2 novembre 2022

Artificial Intelligence

Projets secondaires et ArXiv Sanity

Lex Fridman

Y a-t-il de petits projets sympas comme ArXiv Sanity et autres auxquels vous réfléchissez et que le monde du ML peut anticiper ?

Andrej Karpathy

Il y a toujours des projets secondaires amusants. ArXiv Sanity en est un. L'idée est qu'il y a beaucoup trop d'articles sur ArXiv. Comment puis-je les organiser et recommander des articles, etc. ? J'ai transcrit tous vos podcasts.

L'énigme de la performance de Whisper

Lex Fridman

Qu'avez-vous appris de cette expérience ? De la transcription du processus de consommation de livres audio et de podcasts, etc. Voici un processus qui atteint une performance proche du niveau humain pour l'annotation.

Andrej Karpathy

J'ai vraiment été surpris que la transcription avec Whisper d'OpenAI fonctionne si bien par rapport à ce que je connais de Siri et de quelques autres systèmes. Cela fonctionnait si bien et c'est ce qui m'a donné de l'énergie pour l'essayer et j'ai pensé qu'il serait amusant de l'utiliser sur des podcasts. Il n'est pas évident pour moi de comprendre pourquoi Whisper est tellement meilleur que tout le reste, car de nombreuses entreprises devraient être incitées à produire des systèmes de transcription et elles le font depuis longtemps. Whisper n'est pas un modèle super exotique. C'est un transformeur. Il prend des spectrogrammes mel et génère des jetons de texte. Ce n'est pas insensé. Le modèle et tout le reste existent depuis longtemps. Je ne suis pas sûr à 100 % de la raison pour laquelle cela a été publié.

Lex Fridman

Ce n'est pas évident pour moi non plus. Cela me donne l'impression de passer à côté de quelque chose de fondamental.

Andrej Karpathy

Je rate quelque chose.

Lex Fridman

Parce qu'il y a un effort énorme, même chez Google et pour la transcription YouTube. Ce n'est pas clair. Mais une partie de cela réside aussi dans l'intégration dans un système plus vaste : l'interface utilisateur, la manière dont il est déployé, et tout cela. Peut-être que le faire fonctionner comme un élément indépendant est beaucoup plus facile, d'un ordre de grandeur plus facile que de le déployer dans un grand système intégré comme la transcription YouTube ou les réunions. Zoom a une transcription qui est médiocre. Mais créer une interface où il détecte les différents locuteurs individuels, est capable de l'afficher de manière convaincante, de le faire fonctionner en temps réel, et tout cela, c'est peut-être difficile. C'est la seule explication que j'ai car je paie actuellement assez cher pour de la transcription humaine et de l'annotation de sous-titres par des humains et il semble qu'il y ait une énorme incitation à automatiser cela. C'est très déroutant.

Andrej Karpathy

Et je pense que si vous regardiez certaines des transcriptions de Whisper, elles sont plutôt bonnes.

Lex Fridman

Elles sont bonnes.

Lex Fridman

Et surtout dans des cas délicats. J'ai vu les performances de Whisper sur des cas super complexes et il s'en sort incroyablement bien. Un podcast est assez simple. C'est de l'audio de haute qualité et vous parlez généralement assez clairement. Je ne sais pas quels sont les projets d'OpenAI non plus.

IA générative et futur de la création de contenu

Andrej Karpathy

Mais il y a toujours des projets amusants. Stable Diffusion ouvre également une quantité énorme d'expérimentations dans le domaine visuel et génère des images, des vidéos et finalement des films.

Lex Fridman

Des vidéos maintenant.

Andrej Karpathy

Et ça va être assez fou. Cela va presque certainement fonctionner et ce sera vraiment intéressant quand le coût de la création de contenu tombera à zéro. Autrefois, il fallait un peintre pendant quelques mois pour peindre quelque chose, et maintenant, il suffira de parler à son téléphone pour obtenir sa vidéo. Je sais que ça semble fou.

Lex Fridman

Ainsi, Hollywood commencera à utiliser cela pour générer des scènes, ce qui ouvre complètement des perspectives. On pourra finir par réaliser un film comme Avatar pour moins d'un million de dollars.

Andrej Karpathy

Bien moins, peut-être juste en parlant à votre téléphone. Je sais que ça semble fou.

Retour aux entretiens de Andrej Karpathy