Nguyen Van Hai

Modèle de langage basé sur les réseaux de neurones récurrents

23 mai 2017

Traitement du Langage Naturel
Illustration de Nguyen Van Hai

Introduction

Nguyen Van Hai

Ravi de vous rencontrer.

Nguyen Van Hai

Bonjour à tous. Je m'appelle Nguyen Van Hai. Je viens du Laboratoire de Traitement du Langage Naturel. Aujourd'hui, je vais présenter un article intitulé "Modèle de langage basé sur les réseaux de neurones récurrents".

Informations sur l'article

Nguyen Van Hai

Voici quelques informations sur cet article. Cet article provient de Tomas Mikolov et al. lors de la 11ème Conférence Annuelle de l'Association Internationale de Communication Parlée en 2010.

Contexte et Problématique

Nguyen Van Hai

Tout d'abord, laissez-moi vous présenter cet article. La prédiction de données séquentielles est considérée comme un problème clé dans l'apprentissage automatique. Les modèles d'apprentissage statistique réussissent très bien à prédire le mot suivant dans les données textuelles avec contexte. Cependant, ils sont souvent limités à des domaines linguistiques spécifiques où, par exemple, une phrase doit pouvoir être décrite par un arbre syntaxique ou prendre en compte la morphologie, la syntaxe et la sémantique.

Nguyen Van Hai

Il y a eu des progrès significatifs dans le traitement du langage par rapport à la modélisation statique du langage comme les n-grammes. Dans cet article, ils montrent ces progrès en mesurant la capacité du modèle à mieux prédire les données séquentielles.

Description du Modèle RNN

Nguyen Van Hai

Dans cette description du modèle, nous avons le réseau de neurones récurrent simple et son optimisation.

Nguyen Van Hai

Premièrement, voici le réseau de neurones récurrent simple avec l'entrée, le contexte et la sortie. Pour l'entrée xt, on concatène le vecteur du mot actuel et le vecteur de contexte du mot précédent. s est l'état de la couche cachée, calculé par la fonction d'activation sigmoïde. La sortie y est la distribution de probabilité du mot suivant, calculée par la fonction softmax. La fonction softmax garantit que la probabilité du mot prédit est supérieure à zéro et que la somme de toutes les probabilités de sortie est égale à un.

Entraînement et Optimisation

Nguyen Van Hai

Ce réseau est entraîné sur plusieurs époques, et les valeurs initiales des poids sont fixées à de petites valeurs. Le réseau est entraîné à l'aide de l'algorithme de rétropropagation standard avec une descente de gradient stochastique. Pour chaque étape d'entraînement, le vecteur d'erreur est calculé à l'aide de la fonction d'entropie croisée, où t est le mot souhaité et y est la sortie réelle du réseau.

Nguyen Van Hai

Concernant l'optimisation de cette fonction, pour améliorer les performances, ils fusionnent tous les mots apparaissant moins d'un certain seuil en un jeton rare spécial. La probabilité est calculée là où y est la prédiction de sortie pour les mots rares et c est la taille totale du vocabulaire pour les mots rares.

Expériences : Wall Street Journal

Nguyen Van Hai

Dans les expériences, ils ont utilisé deux ensembles de données : le Wall Street Journal et l'évaluation NIST Rich Transcription 2005.

Nguyen Van Hai

Dans les expériences sur le Wall Street Journal, le corpus contient 37 millions de mots de la section NYT de l'English Gigaword. Cependant, comme l'entraînement prend beaucoup de temps, ils ont entraîné sur 6,4 millions de mots (300 000 phrases) et évalué la perplexité sur 230 000 mots. Ils ont utilisé le lissage de Kneser-Ney avec un modèle 5-gramme et le réseau récurrent. La notation RNN 90-2 signifie que la taille de la couche cachée est de 90 et que le seuil du jeton rare est de 2.

Nguyen Van Hai

Ce tableau montre la performance du modèle sur l'ensemble Wall Street Journal à mesure que les données d'entraînement augmentent. Nous pouvons voir qu'avec l'augmentation de la taille des données d'entraînement, la perplexité et le taux d'erreur sur les mots diminuent.

Nguyen Van Hai

Ceci est une comparaison de diverses configurations de RNN et de combinaisons avec des modèles de repli. Ils ont été entraînés sur les mêmes 6,4 millions de mots. Nous pouvons voir que les trois RNN avec adaptation dynamique offrent une réduction significative du taux d'erreur sur les mots.

Nguyen Van Hai

Ce tableau compare les résultats obtenus à partir de divers modèles, tous entraînés sur les mêmes données.

Expériences : NIST Rich Transcription 2005

Nguyen Van Hai

Ceci concerne le NIST Rich Transcription 2005, comparant un très grand modèle de langage à repli et le modèle RNN sur des données de domaine limité de 5,4 millions de mots. Le taux d'erreur sur les mots montre que le système dynamique donne les meilleurs résultats.

Conclusion

Nguyen Van Hai

En conclusion, cet article montre une réduction du taux d'erreur sur les mots d'environ 18 % avec les mêmes données, et d'environ 12 % même lorsque le modèle de repli est entraîné sur cinq fois plus de données que le RNN. Sur les données du NIST, le RNN surpasse le grand modèle de repli. C'est tout, merci de votre attention.