L'apprentissage des LLM face à la perception humaine
26 mars 2025
Intelligence Artificielle
Comparaison des volumes de données : LLM vs Système Visuel Humain
Laissez-moi vous donner un calcul très simple. Un grand modèle de langage typique est entraîné avec environ 20 billions de tokens. 20 000 milliards de tokens. Un token est comme un mot, plus ou moins. Un token est généralement représenté par trois octets. Donc 20 ou 30 billions de tokens, chacun sur trois octets, cela fait environ 10 puissance 14 octets, un 1 suivi de 14 zéros. C'est la totalité de tous les textes disponibles publiquement sur Internet. Il nous faudrait à chacun d'entre nous plusieurs centaines de milliers d'années pour lire tout ce contenu. C'est donc une quantité énorme d'informations. Mais si l'on compare cela à la quantité d'informations qui parvient à notre cerveau par le système visuel au cours des quatre premières années de vie, c'est à peu près la même quantité. En quatre ans, un jeune enfant a été éveillé au total environ 16 000 heures. La quantité d'informations arrivant au cerveau par le nerf optique est d'environ 2 mégaoctets par seconde. Faites le calcul, et cela donne environ 10 puissance 14 octets. C'est à peu près la même chose. En quatre ans, un jeune enfant a vu autant d'informations ou de données que les plus grands LLM. Et ce que cela nous dit, c'est que nous n'atteindrons jamais une IA de niveau humain en nous contentant d'un entraînement sur du texte. Nous allons devoir amener les systèmes à comprendre le monde réel. Et comprendre le monde réel est vraiment difficile.