Discussion sur Whisper, ArXiv Sanity et le futur de la création de contenu
2 novembre 2022
Artificial Intelligence
Projets secondaires et ArXiv Sanity
Y a-t-il de petits projets sympas comme ArXiv Sanity et autres auxquels vous réfléchissez et que le monde du ML peut anticiper ?
Il y a toujours des projets secondaires amusants. ArXiv Sanity en est un. L'idée est qu'il y a beaucoup trop d'articles sur ArXiv. Comment puis-je les organiser et recommander des articles, etc. ? J'ai transcrit tous vos podcasts.
L'énigme de la performance de Whisper
Qu'avez-vous appris de cette expérience ? De la transcription du processus de consommation de livres audio et de podcasts, etc. Voici un processus qui atteint une performance proche du niveau humain pour l'annotation.
J'ai vraiment été surpris que la transcription avec Whisper d'OpenAI fonctionne si bien par rapport à ce que je connais de Siri et de quelques autres systèmes. Cela fonctionnait si bien et c'est ce qui m'a donné de l'énergie pour l'essayer et j'ai pensé qu'il serait amusant de l'utiliser sur des podcasts. Il n'est pas évident pour moi de comprendre pourquoi Whisper est tellement meilleur que tout le reste, car de nombreuses entreprises devraient être incitées à produire des systèmes de transcription et elles le font depuis longtemps. Whisper n'est pas un modèle super exotique. C'est un transformeur. Il prend des spectrogrammes mel et génère des jetons de texte. Ce n'est pas insensé. Le modèle et tout le reste existent depuis longtemps. Je ne suis pas sûr à 100 % de la raison pour laquelle cela a été publié.
Ce n'est pas évident pour moi non plus. Cela me donne l'impression de passer à côté de quelque chose de fondamental.
Je rate quelque chose.
Parce qu'il y a un effort énorme, même chez Google et pour la transcription YouTube. Ce n'est pas clair. Mais une partie de cela réside aussi dans l'intégration dans un système plus vaste : l'interface utilisateur, la manière dont il est déployé, et tout cela. Peut-être que le faire fonctionner comme un élément indépendant est beaucoup plus facile, d'un ordre de grandeur plus facile que de le déployer dans un grand système intégré comme la transcription YouTube ou les réunions. Zoom a une transcription qui est médiocre. Mais créer une interface où il détecte les différents locuteurs individuels, est capable de l'afficher de manière convaincante, de le faire fonctionner en temps réel, et tout cela, c'est peut-être difficile. C'est la seule explication que j'ai car je paie actuellement assez cher pour de la transcription humaine et de l'annotation de sous-titres par des humains et il semble qu'il y ait une énorme incitation à automatiser cela. C'est très déroutant.
Et je pense que si vous regardiez certaines des transcriptions de Whisper, elles sont plutôt bonnes.
Elles sont bonnes.
Et surtout dans des cas délicats. J'ai vu les performances de Whisper sur des cas super complexes et il s'en sort incroyablement bien. Un podcast est assez simple. C'est de l'audio de haute qualité et vous parlez généralement assez clairement. Je ne sais pas quels sont les projets d'OpenAI non plus.
IA générative et futur de la création de contenu
Mais il y a toujours des projets amusants. Stable Diffusion ouvre également une quantité énorme d'expérimentations dans le domaine visuel et génère des images, des vidéos et finalement des films.
Des vidéos maintenant.
Et ça va être assez fou. Cela va presque certainement fonctionner et ce sera vraiment intéressant quand le coût de la création de contenu tombera à zéro. Autrefois, il fallait un peintre pendant quelques mois pour peindre quelque chose, et maintenant, il suffira de parler à son téléphone pour obtenir sa vidéo. Je sais que ça semble fou.
Ainsi, Hollywood commencera à utiliser cela pour générer des scènes, ce qui ouvre complètement des perspectives. On pourra finir par réaliser un film comme Avatar pour moins d'un million de dollars.
Bien moins, peut-être juste en parlant à votre téléphone. Je sais que ça semble fou.