Introduction aux grands modèles de langage
5 février 2025
Intelligence Artificielle
Introduction
Salut tout le monde. Je voulais faire cette vidéo depuis un moment : une introduction complète mais accessible aux grands modèles de langage comme ChatGPT. J'espère vous donner des modèles mentaux pour comprendre cet outil magique mais complexe. Nous allons explorer comment tout cela est construit, du pré-entraînement à l'assistant final, tout en restant compréhensible pour un public général.
Le Pré-entraînement
Construisons ChatGPT. La première étape est le pré-entraînement. On télécharge Internet, environ 44 téraoctets de données filtrées provenant de sources comme Common Crawl ou FineWeb. On cherche la diversité et la haute qualité. Ce processus implique un filtrage rigoureux des URL, du texte HTML, des langues et des informations personnelles pour obtenir une base de connaissance solide.
La Tokenisation
Avant d'alimenter le réseau de neurones, le texte doit être converti en jetons. On utilise la tokenisation, notamment l'algorithme Byte Pair Encoding (BPE). Le texte est transformé en une séquence de symboles que l'ordinateur peut traiter. GPT-4 utilise plus de 100 000 jetons différents pour équilibrer la longueur des séquences et la taille du vocabulaire.
L'Entraînement et le Transformateur
L'entraînement consiste à prédire le jeton suivant. On utilise des fenêtres de contexte et un réseau de neurones appelé Transformateur. En ajustant des milliards de paramètres, le modèle apprend les relations statistiques entre les jetons. C'est une fonction mathématique massive qui transforme les entrées en prédictions de probabilité.
L'Inférence et le Post-entraînement
L'inférence permet de générer de nouvelles données. C'est un processus stochastique : on échantillonne des jetons selon les probabilités prédites. Un modèle de base est un simulateur de texte Internet. Pour en faire un assistant, on passe au post-entraînement en utilisant des conversations humaines pour lui apprendre à répondre aux questions de manière utile et sécurisée.
Matériel et Hallucinations
Le matériel est essentiel dans cette course. NVIDIA domine avec ses GPU H100, permettant d'entraîner des modèles comme Llama 3 sur des milliers de milliards de jetons. Enfin, les hallucinations sont un effet secondaire de l'apprentissage statistique : le modèle privilégie la probabilité de la séquence sur la vérité factuelle brute.