L'avenir de l'IA et les défis de l'innovation en Europe
28 janvier 2025
Intelligence Artificielle
Biais et comportements des chatbots
Est-il vrai qu'ils ont un jour alimenté un modèle de langage avec des textes issus de débats sur Internet et qu'au bout de six heures environ, il a commencé à pencher vers le nazisme, le racisme et tout ce qui est mal ?
Quelque chose de ce genre s'est produit chez Microsoft, il y a huit ans je crois. Quand Microsoft l'a rendu public à l'époque, comme les algorithmes ne sont pas si complexes, beaucoup de gens dans la communauté des programmeurs comprenaient comment cela fonctionne. Ils se sont moqués de Microsoft et ont scripté une multitude de conversations qui ont poussé le modèle à dire cela. Il est évident pour tout le monde que cela pourrait arriver, donc des contrôles sont effectués pour l'empêcher. Chez Microsoft, ils n'ont absolument rien fait, ils ont tout foiré et voilà le résultat. On en parle encore aujourd'hui, disant que si on laisse un chatbot discuter avec les gens sur Internet, il devient nazi, mais c'est un raccourci.
Si ce modèle était entraîné sur le contenu de la presse allemande de 1932 à 1941, ou si on y injectait 'Der Stürmer', il propagerait bien sûr tout naturellement la théorie raciale et le fascisme, n'est-ce pas ?
C'est clair, car c'est un ensemble de données sur lesquelles le modèle a été entraîné. Quelqu'un influence ces données, ce sur quoi nous pourrions revenir plus tard – où cela pourrait mener à l'avenir. Le modèle ne fait que refléter les opinions issues des données d'entraînement ; pour l'instant, il n'y a pas d'esprit qui planifie ou dirige quoi que ce soit. C'est juste un perroquet qui répète des choses provenant des données d'entraînement.
ChatGPT, neutralité politique et contrôle des données
Je dois dire que ChatGPT est d'un politiquement correct écoeurant. J'ai publié quelques livres et j'ai maintenant une nouvelle dystopique en cours d'écriture, quelque chose entre Huxley et Orwell. J'avais besoin qu'il modélise une société avec une vision légèrement dystopique qui pourrait fonctionner, et je voulais des conseils. Il n'arrêtait pas de me répéter avec obstination que de telles réflexions n'étaient pas bonnes. Tu pensais à cela ou à autre chose ?
Un peu, mais aussi à quelque chose de plus immédiat. Ce que tu dis peut tout à fait arriver, en fait, ça arrive déjà. Quand ChatGPT est sorti, quelqu'un a essayé de lui soumettre un questionnaire politique et il s'est avéré qu'aux États-Unis, il reflétait des opinions très à gauche. C'est un perroquet qui reflète des données. Celui qui contrôle les données d'entraînement contrôle aussi ce que le modèle dira. C'est un peu un totalitarisme médiatique. Avant d'en arriver à Orwell – la 'Novlangue' était assez visionnaire. Maintenant, personne n'a besoin de réécrire tous les enregistrements à la main, il suffit d'une phrase pour réécrire le modèle de langage et je change un million d'enregistrements d'un coup. Ce sera encore plus simple. Bientôt, nous en viendrons aussi au fait que quelqu'un commencera à y insérer de la publicité.
Comment fait-on une IA de gauche ? On le fait en ne lui présentant que des transcriptions de JT de CNN et en omettant Fox News ? Et on en ferait une de droite en y injectant les Républicains et Fox News ?
C'est possible, mais l'innovation majeure de ChatGPT a été le post-entraînement des modèles. Ils sont entraînés sur Internet, mais disposent ensuite d'autres données qui les réentraînent pour une fonction spécifique, pour qu'ils ressemblent à un chatbot qui discute. Ce sont des masses de conversations éditées par des annotateurs humains. Il peut y en avoir des centaines ou des milliers. Ils examinent les journaux de bord, regardent ce que les gens ont écrit et ce que le chatbot a répondu. S'ils voient une erreur, ils la corrigent, réentraînent le modèle et, la fois suivante, il répond correctement. Nous pouvons entraîner un modèle de langage sur des données de gauche et de droite, mais après l'entraînement, nous lui donnons d'autres données, par exemple des milliers de conversations. Le réentraînement est beaucoup plus rapide et les dernières données ont le plus de poids. Si les dernières données disent que Donald Trump est horrible et Kamala Harris géniale, le modèle n'a pas besoin de le voir des milliards de fois, dix ou cent fois suffisent pour qu'il adopte cette position. Grâce aux représentations distribuées, il suffit de changer un seul enregistrement pour changer un million d'objets. Si Ie dis au modèle que Kamala est une sainte et Donald un démon, cela changera transitivement les opinions sur beaucoup d'autres choses qui n'ont même pas besoin d'être dans les données supplémentaires.
Exactement, on se comprend. Qui règle ensuite ces poids ? Quand je demande comment sont réellement les choses, il me répond d'une certaine manière.
Cela provient d'une part d'Internet et d'autre part des opinions des annotateurs, qui suivent les règles de leur employeur. C'est pourquoi les chatbots du type ChatGPT sont trop polis et s'excusent constamment. Leurs règles stipulent qu'ils doivent répondre d'une certaine façon. Si quelqu'un voulait créer un chatbot qui parle mal et insulte, c'est très simple à faire. Les chatbots ne sont pas des organismes vivants, ce sont des modèles mathématiques qui peuvent être ajustés pour dire pratiquement n'importe quoi.
L'IA en Europe et la comparaison internationale
Que faire pour que de telles entreprises voient le jour chez nous ?
Si l'on regarde autour de nous, pas besoin d'aller jusqu'en Amérique. L'Europe a aussi commencé à investir dans l'intelligence artificielle. La France, l'Allemagne et la Grande-Bretagne sont des évidences, mais je ne suis pas ravi que des pays qui étaient traditionnellement derrière nous nous dépassent. Après la chute du communisme, on se disait qu'on était les meilleurs des pays post-communistes. Grâce à l'inertie après l'éclatement de l'Autriche-Hongrie, nous avions pas mal de bonnes choses ici, mais nous chutons relativement. L'année dernière, on disait que les Polonais nous avaient dépassés en termes de salaires.
Pas encore, mais ils savent construire des autoroutes, ils rachètent des entreprises en République tchèque et ils agissent concrètement.
Leur PIB croît plus vite. L'année dernière, j'étais dans leur institut d'IA, fondé dès 2020. Les Polonais ne sont pas les seuls, les Bulgares l'ont fait à peu près au même moment. Dans les deux cas, ils ont obtenu du gouvernement environ 100 millions de dollars sur 10 ans. Du point de vue de l'Europe occidentale, ce n'est pas une grosse somme, mais pour l'Europe de l'Est, c'est correct. Ils ont l'argent pour le transfert de personnes qui terminent leur doctorat et possèdent un savoir-faire unique. Ce sont souvent des scientifiques qui ne savent pas forcément comment monter une startup.
À quoi ressemble un tel institut et que dois-je imaginer sous ce terme de transfert ? Combien de personnes y a-t-il et quel est l'objectif d'un institut à 100 millions de dollars ?
En Bulgarie, ils avaient environ 70 personnes avec l'objectif de passer à 200. L'IA est un domaine qui évolue rapidement, et l'enseignement y réagit avec retard à cause des programmes scolaires. Ils se concentraient sur l'éducation et les cours, mais ils avaient aussi des doctorants qui publiaient pour des conférences. En même temps, ils avaient un incubateur de startups. C'est tout un cycle de vie pour les personnes talentueuses à l'université qui n'envisageraient pas autrement la recherche ou les startups. L'institut leur donne la possibilité de travailler sur un projet et un peu d'argent. Ils y rencontrent d'autres personnes, créant une masse critique. C'est pourquoi la Silicon Valley réussit – il y a plus de gens regroupés qui s'entraident. C'est une question de concentration de personnes intéressantes à différentes phases de leur carrière. Ils parviennent même à obtenir des fonds internationaux. J'ai visité l'entreprise Snowflake, qui a racheté une startup là-bas pour 200 millions de dollars, soit environ 5 milliards de couronnes. C'est la question de l'œuf et de la poule – pour que quelque chose réussisse, il faut que cela commence. En Pologne, ils ont réussi à lancer plus de choses. Maintenant, Google veut aussi y investir, c'est un effet boule de neige. Là où sont les gens, les entreprises arrivent. Quand j'étais chez Google et Facebook, je me demandais s'ils ne voulaient pas investir ici aussi. La distribution de l'argent me semblait injuste. La Silicon Valley en est inondée, les gens y touchent des sommes énormes pour des choses plus simples que ce que font les employés d'entreprises en République tchèque, et ils sont payés, disons, cent fois mieux.
Si nous voulions être un pôle d'innovation, nous devrions attirer l'argent ici. Pour avoir l'argent, nous avons besoin de gens. Tout est lié. Si l'État ne s'implique pas, alors que d'autres pays le font, comment ces entreprises vont-elles nous percevoir ?
Défis de l'innovation et financement en République tchèque
Cela me semble être une situation gagnant-gagnant logique. Il faut que quelqu'un fasse bouger les choses, sinon on ne fera que bavarder sur les usines d'assemblage et rien ne se passera.
Chez les politiques, j'ai l'impression que ce n'est que de l'affichage. Les entreprises disent qu'elles sont écologiques, puis ne le sont pas. Chaque gouvernement se réclame de l'éducation, de la science et de l'innovation. Cela fait des années que j'entends dire que l'IA est une priorité. Le gouvernement actuel a choisi trois priorités : les puces, les ordinateurs quantiques et l'intelligence artificielle. L'IA explose dans le monde, on ne peut pas fermer les yeux là-dessus. Le ministère de l'Industrie et du Commerce a une stratégie nationale pour l'IA. Je suis le scientifique le plus cité de République tchèque, j'ai travaillé dans les meilleures entreprises avec les meilleures personnes, mais depuis mon retour en République tchèque, je n'entends que des promesses. On me dit sans cesse d'attendre, que l'argent viendra, ou d'essayer d'envoyer une demande de subvention. Je les envoie comme un idiot et toujours rien. C'est bizarre que je ne puisse même pas obtenir une petite subvention.
Tu es le scientifique le plus cité à l'échelle mondiale, n'est-ce pas ?
Je peux mentionner ERC.cz. L'année dernière, une évaluation est sortie où mon projet est le seul dans l'histoire du programme du ministère de l'Éducation (MŠMT) à avoir un budget réduit de telle sorte que le ministère veut que je dépense la somme initialement prévue, mais ne me la donne pas. En été, ils m'ont écrit que je devais trouver 40 % de la subvention par moi-même et que j'avais une semaine pour le faire.
La vache !
En vérité, nous nous appauvrissons déjà. Cela se voit dans la comparaison du PIB de l'Amérique et de l'Europe ces 15 dernières années. L'écart se creuse nettement, il n'y a pas lieu d'en débattre. La Commission européenne l'a déjà admis.
Critique du système de subventions et rapport Draghi
Le rapport Draghi, qui a l'air absolument terrifiant.
Ses solutions me semblent également terrifiantes. Nous avons un système de subventions qui ne fonctionne pas, car il est décidé par un 'conseil des anciens' comme dans une économie planifiée. Ils distribuent de l'argent à des gens qui ne l'ont pas gagné. Cela n'a pas fonctionné auparavant et cela ne fonctionnera pas non plus à l'avenir. J'aimerais que nous ayons ici des entreprises innovantes à forte valeur ajoutée. Pour que nous n'ayons pas seulement un Avast, mais davantage d'entreprises qui atteignent le statut de licorne et gagnent des milliards grâce à l'intelligence artificielle. C'est ce qui marche le mieux dans le monde en ce moment. Les Américains et les Chinois y investissent des sommes colossales, Singapour y a injecté environ 750 milliards de couronnes l'année dernière.
En tant qu'États ?
Oui. Le soutien étatique est complexe, le simple fait d'injecter de l'argent ne résoudra rien. Les subventions scientifiques se dissipent souvent. Ce qui s'est passé au ministère de l'Éducation avec le programme OP JAK est une catastrophe. L'argent de l'Europe a été réparti de manière douteuse. Les examinateurs des projets se chiffrant en milliards étaient, selon moi, des prête-noms. Un projet dans le domaine de l'IA a été évalué par quelqu'un qui n'est pas scientifique, qui n'a pas de doctorat et n'a jamais écrit d'article spécialisé. Faire une évaluation pour un tel projet était une mascarade. Une évaluation a été rédigée par un ingénieur italien, une autre par une avocate française. C'était manifestement des gens placés là.
Des personnages venus de nulle part.