Arthur Mensch

Mistral AI : L'ambition européenne de l'IA générative

21 juin 2023

Intelligence Artificielle
Illustration de Arthur Mensch

Introduction et présentation de Mistral AI

Mickaël (Start The Fuck Up)

Bonjour, nous allons introduire Arthur Mensch, co-fondateur et président de Mistral AI. Je me présenterai dans 20 minutes. Je suis le co-fondateur de Start The Fuck Up, un studio d'innovation. On va l'interroger au format questions-réponses avec Ludovic. Bonjour Arthur.

Arthur Mensch

Bonjour.

Mickaël (Start The Fuck Up)

Merci d'être ici. Est-ce que tu peux te présenter rapidement et nous raconter ce qu'est Mistral AI ?

Arthur Mensch

Tout d'abord, merci pour l'invitation, Mickaël, de Start The Fuck Up. Honoré d'être ici. Je ne pourrai sans doute pas être là au déjeuner, mais ravi de discuter plus tard. Si vous êtes intéressés, vous pouvez passer par Mickaël. Mistral AI est une entreprise qu'on a fondée il y a un mois, moi et mes co-fondateurs, Guillaume et Timothée. On est au départ des profils techniques : j'étais à DeepMind, Guillaume et Timothée étaient à Meta. On fait partie des gens qui ont entraîné ces modèles de langage depuis deux ans. J'ai fait plusieurs itérations sur comment les améliorer et les entraîner plus efficacement. On a observé une accélération de la technologie l'année dernière et une révélation des capacités de ces modèles au grand public avec ChatGPT. On s'est rendu compte qu'il y avait quelque chose à faire dans l'espace européen avec un angle beaucoup plus ouvert que ce qui est proposé par certaines entreprises. On se positionne aujourd'hui comme un entraîneur de modèles, on va entraîner la couche basse, onéreuse et difficile à faire de cette technologie d'IA générative. Ce qu'on veut faire, c'est en donner les clés. Une fois qu'on a ces ressources, on veut en donner les clés pour spécialiser les modèles de langage aux applications des entreprises, à leurs diverses fonctions, qu'elles soient internes pour l'amélioration de leur productivité, ou externes, avec création d'un ensemble de nouveaux produits et logiciels qui révolutionnent l'interactivité avec les systèmes informatiques.

L'évolution de la technologie et le succès de ChatGPT

Ludovic

J'ai une première question. Toi qui travailles sur ces sujets de l'intérieur dans les labos des grands groupes, comment tu expliques que ça ait été vu par le grand public comme une rupture brutale en cette fin d'année ? Est-ce que ce c'est quelque chose sur lequel tu avais vu la montée en maturité se profiler ?

Arthur Mensch

Je pense qu'effectivement, cela faisait plusieurs années que je montrais des chatbots à mes amis à la terrasse du café. Je pense que ça s'est mis à marcher beaucoup mieux avec ChatGPT parce qu'ils ont fait des efforts, en particulier sur la supervision avec des données humaines. L'interface aussi était assez révolutionnaire. Je pense qu'il y a eu une anthropomorphisation du modèle qui était très bonne et l'expérience utilisateur a tout révolutionné alors qu'on avait déjà accès à des API qui faisaient globalement la même chose. C'est une histoire de packaging pour l'utilisateur final. La puissance de ces modèles est établie depuis 2020 et des progrès dans ce domaine ont été significatifs : chaque année, on a fait des évolutions d'un facteur trois ou quatre en termes d'efficacité d'entraînement, et d'intensité en calcul et en capital. Par ailleurs, les données qu'on acquiert sont de plus en plus grandes. On s'est rendu compte que s'entraîner sur des données de qualité était crucial. Ces trois facteurs, l'efficacité, le calcul et les données, se sont améliorés constamment depuis deux ou trois ans et font que la technologie est utilisable dans énormément de cas d'utilisation.

Stratégie de spécialisation et réduction des coûts

Ludovic

Tu parles d'une évolution extrêmement rapide tous les ans. En termes d'évolution à court et moyen terme, qu'est-ce que tu perçois comme progrès ?

Arthur Mensch

Je pense qu'au sein des entreprises, beaucoup de groupes se posent la question de comment utiliser la technologie pour améliorer leurs procédés et comment utiliser ça comme un accélérateur de leur core business. C'est en cours, ça ne fait que commencer. Dans les prochaines années, on devrait commencer à voir ce genre de système déployé en production dans un certain nombre de fonctions. Nous pensons que la bonne manière de faire est de spécialiser les modèles aux données des entreprises, de faire en sorte qu'elles aient la main sur le déploiement. On veut leur proposer les modèles en entier, la capacité de les mettre dans leurs silos et de gérer la totalité de leur stack. C'est un contre-positionnement par rapport à des acteurs comme OpenAI ou Anthropic, qui refusent la mise à disposition entière des modèles, ce qui fait qu'ils sont obligés d'avoir des modèles très gros car très généralistes, à défaut de vouloir les spécialiser. Ça va poser à moyen terme une question de coût : pour le moment, les meilleurs modèles sont très coûteux à déployer. À partir du moment où on fait du volume, il faut réfléchir à comment faire des modèles plus petits. La manière de faire est de les spécialiser pour qu'ils soient, à capacité égale, plus petits et beaucoup moins chers à servir.

L'importance de l'Open Source

Mickaël (Start The Fuck Up)

Tu viens de lever 100 millions d'euros pour lancer ton aventure. Tu parles d'entraînement custom. Comment allez-vous utiliser l'open source chez Mistral ?

Arthur Mensch

On a un ADN très open source. On pense qu'une bonne manière de démocratiser l'accès à la technologie est de fournir des modèles open source bien meilleurs que ceux qui existent actuellement. Actuellement sur le marché, les meilleurs modèles open source sont largement en dessous de l'offre commerciale et fermée. La manière dont nous allons travailler est qu'une grosse partie des modèles qu'on va entraîner sera open source avec une licence commerciale. On pense que la valeur n'est pas tant dans la ressource du modèle lui-même que dans le fait de le spécialiser, de le rendre plus petit pour une tâche spécifique, et d'avoir des outils qui permettent facilement de le déployer sans trop de connaissances métier. C'est là-dessus qu'on se positionne avec cet aspect open source, la construction de la communauté, et l'organisation des contributions de la part d'acteurs qui peuvent fournir leurs données ou leurs cas d'usage. C'est une manière d'accélérer la technologie et de créer la flywheel qui nous permettra de nous positionner.

Différenciation et offre commerciale

Ludovic

En termes d'éléments différenciateurs par rapport aux offres open source pour une entreprise qui les considère déjà, en quoi travailler avec Mistral AI viendrait accélérer la démarche ?

Arthur Mensch

Notre objectif est de faire les meilleurs modèles open source, donc d'assez loin devant ce qui est proposé aujourd'hui. L'offre commerciale que nous allons développer est une offre d'intégration avec les systèmes de données des entreprises, de préparation des jeux de données pour spécialiser les modèles, et de déploiement à basse latence ou haute capacité, faisable dans l'infrastructure ou dans le VPC des entreprises, voire potentiellement on-premises. C'est là-dessus que nous positionnons notre offre commerciale et nous cherchons actuellement des partenaires de design pour identifier les besoins et la manière dont on peut déployer ces modèles.

Impact environnemental et efficacité énergétique

Mickaël (Start The Fuck Up)

Tu as parlé de la réduction des coûts et du temps de déploiement. Dans une démarche de Green IT, on cherche à réduire l'impact de ces modèles. Quelle est la tendance ?

Arthur Mensch

La tendance aujourd'hui est de faire de très gros modèles qui coûtent très cher à entraîner. L'impact environnemental du prix de l'entraînement, s'il y a un déploiement à l'échelle, est très faible. Ce qui coûte cher est l'inférence, quand on déploie le modèle sur une application. Quand on a des centaines de milliers d'utilisateurs, le prix de l'inférence rattrape rapidement le prix du training. C'est là où il est important d'avoir des modèles les plus petits possibles parce que le prix d'un déploiement est proportionnel à la taille du modèle. Si on cherche à faire des modèles généralistes, il faut que le modèle soit le plus gros possible pour qu'il soit performant. Une manière d'avoir un modèle petit mais performant est de partir d'un modèle pré-entraîné et de le spécialiser fortement à une tâche particulière, ce qui nous permettra d'avoir un modèle de 3 milliards de paramètres plutôt que 1000 milliards. Ce facteur 300 est ce qu'on gagne en énergie, en prix et en carbone. On passe sur des ordres de grandeur d'inférence web beaucoup plus grands qu'avant et c'est important de bien faire les choses.

Questions de l'audience : Taille des modèles et qualité des données

Mickaël (Start The Fuck Up)

Merci. Est-ce qu'il y a des questions de l'audience ?

Public

Merci pour cette présentation. Quand vous parlez de modèles plus petits, quel est l'ordre de grandeur en termes de paramètres ?

Arthur Mensch

Pour énormément de cas d'usage, un modèle de 3 milliards de paramètres très bien entraîné suffit. Sur les plus gros modèles aujourd'hui déployés avec des API publiques, on est plutôt de l'ordre de 1000 milliards de paramètres. C'est beaucoup plus cher.

Public

Si on a de petits modèles et des qualités de données supérieures pour l'entraînement ou le fine-tuning, comment allez-vous vous assurer que la qualité des données des clients est bonne ?

Arthur Mensch

C'est un enjeu majeur, même pour nous. À partir du substrat que sont les données trouvées sur Internet, il faut en extraire quelque chose d'utilisable pour que le modèle devienne bon. Nous développons des outils qui permettent de le faire plus efficacement et que nous rendrons disponibles dans notre offre commerciale. C'est vraiment un enjeu de nettoyer correctement les données pour en extraire la substance avant de les fournir au modèle pendant le fine-tuning.

Questions de l'audience : Entraînement à partir de zéro et RLHF

Public

Bonjour, j'ai une question sur votre modèle...

Arthur Mensch

Nous allons entraîner les modèles de zéro. Pour avoir les meilleurs modèles possibles, il faut tout repenser : choisir les architectures et l'optimisation correctement, et préparer les meilleurs datasets. Si on part de modèles existants, on va faire des gains marginaux. S'autoriser des changements architecturaux nous force à partir de zéro, mais ce sera une manière d'être plus efficace avec les données disponibles. Nous partons de l'open web, ce à quoi on a accès en crawlant Internet. Cela nécessite énormément de nettoyage pour retirer ce sur quoi on n'a pas le droit de s'entraîner ou ce qui n'a aucun intérêt, et c'est ce que nous faisons aujourd'hui.

Public

Bonjour, je me permets de compléter la question. Quelle est votre stratégie sur la brique RLHF, le reinforcement learning, et comment allez-vous accompagner les entreprises vis-à-vis de ça ?

Arthur Mensch

C'est une très bonne question. Nous pensons que l'instruction, c'est-à-dire l'orientation du modèle vers une tâche donnée, n'est pas vraiment une tâche générique que nous pouvons résoudre, mais une tâche que les entreprises peuvent résoudre. Nous voyons deux choses. Pour bien résoudre une tâche, il faut d'abord imiter des données humaines. Par exemple, pour un service client, la première chose à faire est de se fine-tuner sur des échanges réels entre humains. Ça permet au système d'emprunter le ton et les capacités d'un opérateur humain. La deuxième étape sur laquelle on se positionnera est de déployer le modèle en version bêta et d'acquérir un feedback sur ce que le modèle a bien ou mal fait. Cela permet de modifier le modèle pour qu'il s'améliore. Le déploiement d'un modèle doit toujours s'accompagner d'un monitoring et de l'acquisition de feedbacks qui permettront de l'améliorer.

Questions de l'audience : Roadmap et délais

Public

Bonjour, j'avais une question sur votre roadmap. Est-ce que vous pouvez partager des informations sur les délais dans lesquels vous pensez pouvoir fournir ce service ?

Arthur Mensch

Nous ambitionnons une première release début 2024. Nous sommes à la recherche de partenaires commerciaux pour développer des preuves de concept en bêta.

Questions de l'audience : Biais, Langues et Régulation

Public

Bonjour, merci pour votre présentation. IBM a annoncé Watsonx la semaine dernière en disant être propriétaire des données sans biais. Comment vous vous situez là-dessus ? En tant que société française, allez-vous faire un modèle qui parle français ou anglais ?

Arthur Mensch

Nous serons très attentifs à la question des biais. Aucun acteur aujourd'hui n'est capable de dire que son modèle n'a aucun biais, c'est impossible. La bonne manière d'approcher la chose est de se pré-entraîner sur un ensemble de données le plus grand possible et de faire de l'instruction a posteriori pour retirer les biais et définir la neutralité attendue. Le modèle a besoin de savoir ce qui est biaisé pour ne pas l'être. Sur la question du français, notre positionnement est européen d'abord en termes de prospects, même s'il est mondial. Nos premiers partenaires seront européens. Nous serons attentifs à ce que notre modèle soit particulièrement performant dans les langues européennes. En réalité, quand on s'entraîne sur beaucoup de langues à la fois, on a du transfert positif si c'est fait correctement. Nous mettrons beaucoup de français dans le mix.

Public

Bonjour. Que pensez-vous de la future réglementation qui va encadrer l'IA ? Est-ce un frein pour l'innovation puisque vous êtes en plein dedans ? Aussi, comment vous situez-vous comme entreprise à impact ? Ces technologies vont avoir des impacts environnementaux et sociaux avec des potentiels destructions d'emplois. Comment analysez-vous cette schizophrénie entre l'innovation et la responsabilité de dirigeant ?

Arthur Mensch

Je vais répondre d'abord à la première question. Actuellement, une régulation européenne est en cours de discussion concernant les 'general purpose AI models', dont les large language models. La version du Parlement a été écrite de manière trop floue pour que les acteurs du secteur arrivent à innover. Nous sommes actifs pour accompagner la discussion. Il y a une volonté des pouvoirs publics de faire cela correctement pour que l'innovation en Europe soit possible. Nous sommes confiants sur l'évolution dans les prochains mois. Sur la deuxième question, cette technologie est porteuse de transformations sociétales importantes. Il faut être le plus démocratique possible dans la diffusion de la technologie. Il n'est pas désirable que deux ou trois acteurs américains possèdent la discussion et décident de l'orientation culturelle des modèles. L'angle open source fait partie de notre stratégie éthique pour diffuser la technologie de manière responsable. Bien que nous soyons très petits, le fait que des acteurs aient accès à ces modèles permettra de susciter le débat et de trouver des solutions intelligentes.

Modèle économique et conclusion

Mickaël (Start The Fuck Up)

Dernière question.

Arthur Mensch

Notre modèle économique est à définir, mais nous l'envisageons en B2B. Nous allons parler avec des partenaires entreprises qui vont déployer et spécialiser nos modèles. Au moment du déploiement, nous envisageons un tarif à l'utilisation au volume des modèles qu'on aura aidé à spécialiser et à déployer.

Mickaël (Start The Fuck Up)

Merci beaucoup Arthur.