Fei-Fei Li

L'intelligence spatiale : la prochaine frontière de l'IA

16 mai 2024

Intelligence Artificielle
Illustration de Fei-Fei Li

L'évolution biologique de la vision

Fei-Fei Li

Laissez-moi vous montrer quelque chose. Pour être précise, je ne vais rien vous montrer. C'était le monde il y a 540 millions d'années. Une obscurité pure et infinie. Ce n'était pas sombre par manque de lumière. C'était sombre par manque de vue. Bien que la lumière du soleil filtrait à mille mètres sous la surface de l'océan, et que la lumière émanait des cheminées hydrothermales jusqu'au fond marin, regorgeant de vie, on ne trouvait pas un seul œil dans ces eaux anciennes. Pas de rétines, pas de cornées, pas de cristallins. Donc toute cette lumière, toute cette vie, restait invisible. Il fut un temps où l'idée même de voir n'existait pas. Cela n'avait tout simplement jamais été fait auparavant, jusqu'à ce que ce le soit. Ainsi, pour des raisons que nous commençons seulement à comprendre, les trilobites, les premiers organismes capables de détecter la lumière, sont apparus. Ils sont les premiers habitants de cette réalité que nous tenons pour acquise. Les premiers à découvrir qu'il existe quelque chose d'autre que soi-même, un monde composé de nombreux êtres. On pense que la capacité de voir a instauré l'explosion cambrienne, une période au cours de laquelle une grande variété d'espèces animales est apparue dans les registres fossiles. Ce qui a commencé comme une expérience passive, le simple fait de laisser entrer la lumière, est vite devenu bien plus actif. Le système nerveux a commencé à évoluer. La vue s'est transformée en intuition. Voir est devenu comprendre. Comprendre a mené aux actions, et tout cela a donné naissance à l'intelligence.

L'avènement de l'IA moderne et ImageNet

Fei-Fei Li

Aujourd'hui, nous ne nous contentons plus du seul don de la nature qu'est l'intelligence visuelle. La curiosité nous pousse à créer des machines capables de voir aussi intelligemment que nous, sinon mieux. Il y a neuf ans, sur cette scène, j'ai présenté un premier rapport d'étape sur la vision par ordinateur, un sous-domaine de l'intelligence artificielle. Trois forces puissantes ont convergé pour la première fois. Une famille d'algorithmes appelés réseaux de neurones, du matériel rapide et spécialisé appelé unités de traitement graphique, ou GPU, et le big data, comme les 15 millions d'images que mon laboratoire a passé des années à organiser, appelé ImageNet. Ensemble, ils ont inauguré l'ère de l'IA moderne. Nous avons parcouru un long chemin. À l'époque, le simple fait de mettre des étiquettes sur des images était une grande avancée. Mais la rapidité et la précision de ces algorithmes se sont améliorées rapidement. Le défi annuel ImageNet mené par mon labo a mesuré les performances de ces progrès, et sur ce graphique, vous voyez l'amélioration annuelle et les modèles marquants. Nous sommes allés plus loin et avons créé des algorithmes capables de segmenter des objets ou de prédire les relations dynamiques entre eux dans ces travaux réalisés par mes étudiants et collaborateurs. Et il y a plus encore. Rappelez-vous, la dernière fois, je vous ai montré le premier algorithme de vision par ordinateur capable de décrire une photo en langage naturel humain. C'était un travail réalisé avec mon brillant ancien étudiant Andrej Karpathy. À ce moment-là, j'ai tenté ma chance et j'ai dit : « Andrej, pouvons-nous faire en sorte que les ordinateurs fassent l'inverse ? » Et Andrej a répondu : « Haha, c'est impossible. » Eh bien, comme vous pouvez le voir sur cette publication récente, l'impossible est devenu possible.

L'IA générative et la vidéo

Fei-Fei Li

C'est grâce à une famille de modèles de diffusion qui alimentent l'algorithme d'IA générative d'aujourd'hui, capable de prendre une phrase suggérée par un humain et de la transformer en photos et vidéos de quelque chose de totalement nouveau. Beaucoup d'entre vous ont vu les récents résultats impressionnants de Sora par OpenAI. Mais même sans le nombre énorme de GPU, mon étudiant et nos collaborateurs ont développé un modèle de vidéo générative appelé WALT des mois avant Sora. Et vous voyez certains de ces résultats. Il y a encore des progrès à faire. Je veux dire, regardez l'œil de ce chat et la façon dont il passe sous la vague sans jamais se mouiller. Quelle chat-astrophe. Et si le passé est un prologue, nous apprendrons de ces erreurs et créerons l'avenir que nous imaginons.

Le concept d'intelligence spatiale

Fei-Fei Li

Et dans cet avenir, nous voulons que l'IA fasse tout ce qu'elle peut pour nous, ou pour nous aider. Depuis des années, je dis que prendre une photo n'est pas la même chose que voir et comprendre. Aujourd'hui, j'aimerais ajouter ceci. Voir ne suffit pas. On voit pour agir et pour apprendre. Lorsque nous agissons sur ce monde dans l'espace 3D et dans le temps, nous apprenons, et nous apprenons à mieux voir et à mieux faire. La nature a créé ce cercle vertueux de la vision et de l'action, alimenté par l'intelligence spatiale. Pour vous illustrer ce que votre intelligence spatiale fait constamment, regardez cette photo. Levez la main si vous avez envie de faire quelque chose. Dans la dernière fraction de seconde, votre cerveau a analysé la géométrie de ce verre, sa place dans l'espace 3D, sa relation avec la table, le chat et tout le reste, et vous pouvez prédire ce qui va se passer ensuite. L'envie d'agir est innée chez tous les êtres dotés d'intelligence spatiale, ce qui lie la perception à l'action. Et si nous voulons faire progresser l'IA au-delà de ses capacités actuelles, nous voulons plus qu'une IA capable de voir et de parler. Nous voulons une IA capable d'agir. En effet, nous faisons des progrès passionnants. Les jalons récents de l'intelligence spatiale consistent à apprendre aux ordinateurs à voir, apprendre, agir, et apprendre à mieux voir et faire.

La modélisation du monde en 3D

Fei-Fei Li

Ce n'est pas facile. Il a fallu des millions d'années à la nature pour faire évoluer l'intelligence spatiale, qui dépend de l'œil captant la lumière, projetant des images 2D sur la rétine, et du cerveau traduisant ces données en informations 3D. Ce n'est que récemment qu'un groupe de chercheurs de Google a réussi à développer un algorithme pour prendre un tas de photos et les traduire en espace 3D, comme les exemples que nous montrons ici. Mon étudiant et nos collaborateurs sont allés plus loin et ont créé un algorithme qui prend une image d'entrée et la transforme en forme 3D. Voici d'autres exemples. Rappelez-vous, nous avons parlé de programmes informatiques capables de prendre une phrase humaine et de la transformer en vidéos. Un groupe de chercheurs de l'Université du Michigan a trouvé un moyen de traduire cette ligne de phrase en une disposition de pièce en 3D, comme montré ici. Et mes collègues de Stanford et leurs étudiants ont développé un algorithme qui prend une image et génère des espaces infiniment plausibles à explorer pour les spectateurs. Ce sont des prototypes des premiers signes prometteurs d'une possibilité future. Une possibilité dans laquelle la race humaine peut prendre notre monde entier et le traduire sous des formes numériques et en modéliser la richesse et les nuances.

L'apprentissage robotique et l'intelligence incarnée

Fei-Fei Li

Ce que la nature a fait pour nous implicitement dans nos esprits individuels, la technologie de l'intelligence spatiale peut aider à le faire pour notre conscience collective. À mesure que les progrès de l'intelligence spatiale s'accélèrent, une nouvelle ère de ce cercle vertueux se déroule sous nos yeux. Cet échange catalyse l'apprentissage robotique, un composant clé pour tout système d'intelligence incarnée qui doit comprendre et interagir avec le monde en 3D. Il y a dix ans, ImageNet de mon laboratoire a permis de constituer une base de données de millions de photos de haute qualité pour aider à entraîner les ordinateurs à voir. Aujourd'hui, we faisons la même chose avec les comportements et les actions pour entraîner les ordinateurs et les robots à agir dans le monde en 3D. Mais au lieu de collecter des images statiques, nous développons des environnements de simulation alimentés par des modèles spatiaux 3D afin que les ordinateurs puissent avoir une variété infinie de possibilités pour apprendre à agir. Et vous ne voyez qu'un petit nombre d'exemples pour enseigner à nos robots dans un projet dirigé par mon laboratoire appelé BEHAVIOR. Nous faisons également des progrès passionnants dans l'intelligence du langage robotique. En utilisant des entrées basées sur de grands modèles de langage, mes étudiants et nos collaborateurs font partie de la première équipe capable de montrer un bras robotique effectuant une variété de tâches basées sur des instructions verbales, comme ouvrir ce tiroir, ou débrancher un téléphone chargé, ou préparer des sandwichs avec du pain, de la laitue, des tomates, et même mettre une serviette pour l'utilisateur. En général, j'aimerais un peu plus de garniture pour mon sandwich, mais c'est un bon début.

L'IA dans le domaine de la santé

Fei-Fei Li

Dans cet océan primordial de nos temps anciens, la capacité de voir et de percevoir son environnement a déclenché l'explosion cambrienne des interactions avec d'autres formes de vie. Aujourd'hui, cette lumière atteint les esprits numériques. L'intelligence spatiale permet aux machines d'interagir non seulement entre elles, mais aussi avec les humains et avec les mondes 3D, réels ou virtuels. Et à mesure que cet avenir prend forme, il aura un impact profond sur de nombreuses vies. Prenons l'exemple des soins de santé. Au cours de la dernière décennie, mon laboratoire a fait les premiers pas dans l'application de l'IA pour relever des défis qui ont un impact sur les résultats des patients et l'épuisement du personnel médical. En collaboration avec nos partenaires de l'école de médecine de Stanford et des hôpitaux partenaires, nous pilotons des capteurs intelligents capables de détecter les cliniciens entrant dans les chambres des patients sans se laver correctement les mains, ou de suivre les instruments chirurgicaux, ou d'alerter l'équipe soignante lorsqu'un patient court un risque physique comme une chute. Nous considérons ces techniques comme une forme d'intelligence ambiante, comme des paires d'yeux supplémentaires qui font vraiment la différence. Mais j'aimerais une aide plus interactive pour nos patients, cliniciens et soignants qui ont aussi désespérément besoin d'une paire de mains supplémentaire. Imaginez un robot autonome transportant des fournitures médicales pendant que les soignants se concentrent sur nos patients. Ou la réalité augmentée guidant les chirurgiens pour effectuer des opérations plus sûres, plus rapides et moins invasives. Ou imaginez des patients souffrant de paralysie sévère contrôlant des robots par la pensée. C'est exact, les ondes cérébrales, pour effectuer des tâches quotidiennes que vous et moi tenons pour acquises. Vous voyez un aperçu de cet avenir dans cette étude pilote récente de mon laboratoire. Dans cette vidéo, le bras robotique prépare un repas sukiyaki japonais contrôlé uniquement par le signal électrique cérébral collecté de manière non invasive via un casque EEG. Merci.

Conclusion : Une IA au service de l'humanité

Fei-Fei Li

L'émergence de la vision il y a un demi-milliard d'années a bouleversé un monde de ténèbres. Elle a déclenché le processus évolutif le plus profond, le développement de l'intelligence dans le monde animal. Les progrès époustouflants de l'IA au cours de la dernière décennie sont tout aussi stupéfiants. Mais je crois que le plein potentiel de cette explosion cambrienne numérique ne sera pleinement réalisé que lorsque nous doterons nos ordinateurs et nos robots d'une intelligence spatiale, tout comme la nature l'a fait pour nous tous. C'est un moment passionnant pour apprendre à notre compagnon numérique à raisonner et à interagir avec ce magnifique espace 3D que nous appelons notre foyer, et aussi à créer de nombreux autres nouveaux mondes que nous pourrons tous explorer. Réaliser cet avenir ne sera pas facile. Cela exige que nous fassions tous des pas réfléchis et que nous développions des technologies qui placent toujours l'humain au centre. Mais si nous faisons cela correctement, les ordinateurs et les robots alimentés par l'intelligence spatiale ne seront pas seulement des outils utiles, mais aussi des partenaires de confiance pour améliorer et augmenter notre productivité et notre humanité tout en respectant notre dignité individuelle et en élevant notre prospérité collective. Ce qui m'enthousiasme le plus pour l'avenir, c'est un avenir dans lequel l'IA devient plus perceptive, perspicace et spatialement consciente, et où elle nous rejoint dans notre quête pour toujours poursuivre une meilleure façon de construire un monde meilleur. Merci.