Représentations distribuées multilingues sans alignement de mots
15 avril 2014
Intelligence Artificielle
Introduction et Hypothèse Distributionnelle
Commençons. Il s'agit de représentations distribuées multilingues sans alignement de mots. Laissez-moi vous donner un résumé très rapide de ce dont cette présentation va traiter. Typiquement, quand on pense à l'apprentissage de représentations dans le langage, comme les représentations distribuées, c'est généralement monolingue. Nous pensons qu'il serait très logique d'étendre cela à l'apprentissage à partir de corpus parallèles, en fournissant des représentations monolingues avec un ancrage sémantique dans une autre langue. De plus, vous pourriez être en mesure de réaliser un transfert sémantique entre les langues. Nous allons apprendre ces plongements en étendant l'hypothèse distributionnelle aux corpus multilingues et au niveau de la phrase. Cela va fonctionner, mais nous reviendrons aux résultats plus tard. Parlons de l'hypothèse distributionnelle. C'est l'idée selon laquelle "on connaît un mot par la compagnie qu'il fréquente". L'idée est que vous pouvez obtenir le sens d'un mot en regardant les mots avec lesquels il co-apparaît dans de grands corpus. Cela fonctionne de manière sensée au niveau monolingue et pour l'apprentissage de représentations de mots. J'aimerais argumenter que c'est plus puissant quand on étend cela à des données multilingues. Si vous regardez deux phrases parallèles anglais-allemand, où dans un cas "cat" est aligné avec "Katze" et dans l'autre cas "cat" est aligné avec "Kater", la version masculine de chat en allemand. En ayant ces données multilingues, vous finissez par apprendre que "Katze" et "Kater" devraient être sémantiquement très proches, parce qu'ils sont alignés avec le même mot dans une autre langue plutôt que parce qu'ils apparaissent dans des contextes similaires comme d'autres animaux pourraient également apparaître dans ces contextes. De même, vous finissez par obtenir une similarité multilingue pour apprendre l'ancrage sémantique. Dans la linguistique traditionnelle, quand on regarde l'acquisition du langage, tout cela concerne l'ancrage sémantique et l'ancrage de votre langage dans des expériences du monde réel, des choses qui sont généralement difficiles à donner aux ordinateurs quand nous essayons de leur enseigner des représentations.
Sémantique Compositionnelle et Modèles Existants
J'aimerais considérer les données multilingues comme un substitut raisonnable où la sémantique que vous voulez apprendre est la même que celle que vous avez dans votre corpus parallèle. Puisqu'il s'agit de sémantique compositionnelle multilingue, pourquoi s'en préoccuper ? Deux tâches simples nous motivent. L'une est la paraphrase où vous voulez déterminer si deux phrases signifient approximativement la même chose. Ce dont vous avez besoin pour cela, ce ne sont pas seulement des représentations au niveau du mot mais réellement des représentations au niveau de la phrase pour vraiment prendre cette décision. Si vous allez un peu plus loin vers la traduction, vous n'avez pas seulement besoin de représentations au niveau de la phrase mais aussi de représentations valables à travers les langues. Par exemple pour déterminer si ces deux phrases signifient la même chose. Il y a eu un peu de travail sur la sémantique compositionnelle par le passé dans notre domaine et généralement vous finissez par avoir deux types différents de fonctions objectives que les gens utilisent. L'une d'entre elles est les auto-encodeurs récursifs où vous avez une fonction objective pour minimiser l'erreur entre un certain signal de reconstruction et les entrées originales. Cela fonctionne bien pour quelques tâches, mais la grande question est de savoir si la composition sémantique et la compression sont réellement la même chose ou juste un substitut que nous utilisons par hasard. De même, l'autre chose que les gens utilisent sont les signaux de classification. C'est le signal de classification des sentiments popularisé par l'article de Richard Socher en 2011. Encore une fois, cela fonctionne pour la tâche de sentiment, mais savoir si le sentiment et la sémantique sont vraiment la même chose est une bonne question. Avec tout cela, vous finissez par apprendre des caractéristiques spécifiques à la tâche plutôt que des plongements sémantiques au sens général. Sur cette base, ce que nous essayons de faire ici est tout d'abord d'apprendre des représentations dans un espace sémantique multilingue et d'essayer d'éviter les biais spécifiques à la tâche.
Le Modèle BiCVM et Fonction Objective
Enfin, nous voulons prendre légèrement en compte les effets compositionnels. J'y reviendrai dans un instant. Voici à quoi ressemblerait un modèle simple. Imaginez que vous ayez des phrases dans deux langues, A et B, et que vous ayez un modèle de vecteur de composition qui, étant donné les représentations de phrases, apprend la représentation au niveau de la phrase. Nous voulons créer cet espace multilingue avec un transfert sémantique au niveau de la phrase pour nous assurer que ces représentations au niveau de la phrase fA et gB sont étroitement alignées si les phrases sont alignées et non proches les unes des autres si les phrases ne sont pas alignées. La motivation derrière ce modèle est l'apprentissage indépendant de la tâche car votre fonction objective est que des phrases sémantiquement équivalentes se projettent dans le même point de l'espace. Nous obtenons des représentations multilingues en ayant des données multilingues dans le même espace. Ces représentations d'espace conjoint seront sémantiquement plausibles. Enfin, nous utilisons ces modèles de vecteurs de composition pour apprendre le transfert sémantique au niveau de la phrase par lequel ils fournissent un contexte sémantique plus large en n'alignant pas seulement quelque chose sur une base mot à mot mais en créant cet espace basé sur un contexte plus large. Voilà pour la théorie ; évidemment, de manière simple, cela ne fonctionne pas. Notre fonction objective est de minimiser la distance entre fA et gB et nous voulons apprendre toutes ces représentations. Cela peut dégénérer trivialement en projetant tout sur un seul point de l'espace. Nous avons fini par utiliser une solution à large marge contrastive par le bruit. Dans ce cas, nous prenons notre fonction objective originale minimisant la distance et nous la mettons dans une perte charnière (hinge loss) où nous échantillonnons des phrases bruitées pour les paires parallèles. Avec cette fonction objective, vous finissez par forcer des phrases sémantiquement équivalentes dans le même point de l'espace mais vous forcez également d'autres phrases échantillonnées au hasard qui ne sont pas sémantiquement équivalentes à rester à l'écart par une certaine marge. Voilà pour la théorie. Une chose que j'ai passée sous silence est le modèle de vecteur de composition. Il existe toutes sortes de modèles que vous pourriez utiliser. Nous avons décidé d'opter pour la chose la plus simple, un modèle en sac de mots. L'idée est de découvrir si cette fonction objective bilingue a du sens et par la suite vous pouvez remplacer par n'importe quel CVM que vous aimeriez essayer. L'utilisation d'un sac de mots nous oblige à évaluer le caractère bilingue de la fonction objective en soi.
Évaluation et Résultats
Comment évaluer le tout ? Nous utilisons cette tâche de classification de documents translingue par Klementiev et al. de 2012. Supposons que vous ayez des données en anglais, des documents ou des phrases en anglais, qui sont classés. Vous voulez classer des données en allemand basées sur le même schéma de classification. C'est une bonne tâche pour évaluer un tel modèle car c'est une tâche sensée en termes d'intérêt réel. En même temps, cela vous oblige à évaluer si nos plongements ont du sens au niveau monolingue mais aussi s'ils fonctionnent au niveau multilingue parce que nous entraînons le classifieur dans une langue et l'évaluons dans l'autre. En pratique, nous prenons toutes ces données, entraînons notre modèle, et remplaçons tout par des représentations vectorielles. Ensuite, nous entraînons un classifieur sur les données anglaises et classons les données allemandes. C'est une procédure d'entraînement en deux étapes. La première partie est l'apprentissage du modèle où nous utilisons beaucoup de données parallèles. Dans notre cas, nous avons utilisé le corpus Europarl qui regroupe les délibérations du Parlement européen. Nous entraînons cela en utilisant cet objectif parallèle pour apprendre des représentations dans les deux langues. Par la suite, étant donné ces représentations, nous entraînons un classifieur perceptron moyenné pour la tâche de classification réelle. Nous utilisons un perceptron moyenné pour rester cohérents avec les résultats de Klementiev. Une chose intéressante que nous avons également faite est que nous avons essayé un deuxième modèle, BiCVM+, que nous avons non seulement entraîné sur des données parallèles anglais-allemand mais aussi sur des données parallèles anglais-français. Cela nous permet d'évaluer l'idée d'étendre l'hypothèse distributionnelle aux données multilingues. Si nous injectons des données anglais-français, la question est de savoir si cela améliore les représentations allemandes même s'il n'y a pas de données allemandes supplémentaires, en utilisant un ancrage pivoté par l'anglais. De plus, cela demande si nous pouvons apprendre des plongements véritablement multilingues où nous avons toute une foule de langues projetées dans un espace de plongement partagé. Voilà pour la configuration du modèle. En termes de résultats, voici la ligne de base de la majorité à laquelle on pourrait s'attendre. Il y a deux directions ici. Le côté gauche est l'entraînement sur les données anglaises, l'évaluation sur l'allemand, et vice versa l'entraînement sur les données allemandes, l'évaluation sur l'ensemble de test anglais. Ensuite, il y a deux lignes de base que nous avons copiées de Klementiev et al., une ligne de base glossaire et MT où ils ont essayé de traduire les données d'une langue dans l'autre et d'entraîner à classer sur cette base. Le modèle de Klementiev et al. a été appris en utilisant une matrice d'interaction d'alignement de mots sur l'ensemble du corpus Europarl. Voici notre modèle BiCVM. Il se comporte assez bien. C'est le modèle entraîné uniquement sur les données anglaises et allemandes. Ensuite, il y a l'autre modèle sur les données anglaises, allemandes et françaises. C'est assez satisfaisant, surtout quand vous regardez le côté droit. Le classifieur que nous avons entraîné uniquement sur les représentations allemandes et testé sur les documents anglais augmente en fait pas mal en ajoutant des données anglais-français sans ajouter de données allemandes supplémentaires. C'est une preuve solide pour soutenir notre hypothèse selon laquelle nous pouvons étendre l'hypothèse distributionnelle aux données multilingues. Pour l'apprentissage de représentations, voici quelques projections t-SNE. C'est le modèle entraîné sur les trois langues. J'ai pris quelques courtes phrases en anglais, allemand et français. Vous voyez cet alignement fort entre "Herr Präsident", "Mr. President", "Monsieur le Président". Le même sens dans trois langues est proche l'un de l'autre. Au-dessus de cela, vous avez les versions féminines. La version anglaise neutre en termes de genre se situe quelque part entre les deux versions genrées. Cela indique que nous apprenons des représentations sensées à travers ces langues.
Extensions et Travaux Futurs
C'est l'article, mais laissez-moi parler brièvement des choses que nous avons faites depuis pour étendre cela. J'ai présenté plus tôt mes excuses pour notre modèle CVM qui était un sac de mots. Pour prouver que nous pouvons y mettre quelque chose de plus intéressant, nous avons par la suite expérimenté avec ce modèle CVM bigramme où nous utilisons une non-linéarité pour modéliser des paires de bigrammes dans le corpus. Cela vous donne des caractéristiques plus fortes en termes d'ordre des mots. Si nous insérons le modèle bigramme, cela améliore encore les choses. L'utilisation d'un CVM plus complexe semble aider dans l'apprentissage de représentations globalement. La deuxième chose avec laquelle nous avons joué était de dire, actuellement nous nous arrêtons au niveau de la phrase pour l'apprentissage de représentations dans notre CVM. Mais il n'y a aucune raison pour laquelle nous devrions nous arrêter là. Nous avons développé un modèle récursif où vous apprenez des représentations de phrases et utilisez ensuite un second CVM pour apprendre des représentations au niveau du document. C'est significatif parce que nous avons supprimé le besoin d'alignement de mots et d'alignement de phrases. Vous pouvez utiliser cela sur des corpus comparables ou abstraits où vous n'avez pas d'alignement de phrases un pour un. Vous obtenez toujours un signal que vous propagez en retour depuis le niveau du document ou si vous avez des données alignées par phrases vous pouvez combiner le signal au niveau du document avec les signaux au niveau de la phrase. Pour cela nous avons construit un nouveau corpus basé sur des transcriptions de conférences TED. Je n'ai pas de résultats pour cela ici, mais je pense qu'ils sont assez prometteurs et c'est une belle approche qui fonctionne bien. Vous devrez attendre l'ACL pour cela. Comme je l'ai dit, nous avons construit un corpus basé sur les conférences TED qui est encore plus massivement multilingue. Nous utilisons 12 langues parallèles ici, toujours l'anglais plus une langue. C'est une tâche de classification multi-classes avec 15 étiquettes et plusieurs étiquettes par document. Basé sur nos résultats, je dirais que c'est une tâche plus difficile et par là possiblement plus intéressante. C'est tout pour moi. Merci beaucoup.
Session de Questions-Réponses
En fait, nous avons essayé cela et nous l'avons publié à l'EMNLP l'année dernière en utilisant Wikipédia pour obtenir le niveau du document et vous pouvez obtenir des milliers et des milliers de corpus parallèles et cela fonctionne en fait très, très bien. Je vous enverrai la référence.
Je suppose que Wikipédia serait également un beau corpus, surtout dans le sens de documents comparables plutôt que de traductions un pour un. Cela fonctionne très bien tant sur Wikipédia que sur Europarl. Super. Merci.
Était-ce une décision délibérée de ne pas utiliser de données monolingues du tout ? Parce qu'il semblait que c'était une opportunité facile d'inclure simplement des données monolingues dans tout cet apprentissage en plus de cela. Je pourrais imaginer un certain nombre de façons de le faire, mais il semble impressionnant que cela ait bien fonctionné tel quel et il semble que ce soit une opportunité très facile d'augmenter la taille du vocabulaire, qui ne semble pas très éloignée de la taille de...
Il y a certainement un moyen d'étendre cela en ajoutant des données monolingues pour améliorer votre apprentissage de représentations. Ce que nous avons essayé de faire ici c'est d'être assez puristes à ce sujet parce que nous voulions vraiment évaluer cette idée de savoir si l'on peut prendre l'hypothèse distributionnelle et l'étendre à des données multilingues. Je suppose que si nous avions utilisé une grande quantité de données monolingues en plus de cela, cela aurait un peu brouillé les résultats.
Je me souviens d'imageries cérébrales en neurosciences de bilingues précoces par rapport aux tardifs qui montraient que leurs représentations étaient mixtes quand ils étaient de jeunes apprenants et séparées plus tard. Pouvez-vous essayer ceci ? Si vous commencez à apprendre la représentation dans une langue et que l'autre intervient plus tard, cela changerait-il la représentation ?
C'est ce que je voulais montrer ici plus tôt. Ce genre de configuration peut être utilisé pour le transfert sémantique. Si vous supposez que vous avez de très bonnes représentations en anglais et que vous voulez apprendre des représentations dans une langue à faibles ressources, alors vous pourriez utiliser ce type d'approche pour apprendre ces représentations secondaires. Je suppose que vous pourriez ouvrir cela à un moment donné pour améliorer également les traductions anglaises. Mais nous n'avons pas essayé cela.
Mais la question est de savoir si vous l'apprenez ensemble dès le début ou si vous avez cette asymétrie que vous avez montrée entre anglais-allemand, allemand-anglais. Est-il préférable de commencer avec une langue d'abord puis que l'autre intervienne ?
Je suppose que nous devrions essayer. Je ne me suis pas penché sur la question. Nous devrions passer à l'orateur suivant.
Très rapide. Dans ce cadre multilingue, avez-vous des comparaisons entre l'utilisation du signal de reconstruction et l'utilisation du signal de classification ? Juste pour voir si cela a du sens.
Désolé, je n'ai pas suivi.
Plus tôt vous avez parlé du cadre monolingue où vous avez évoqué à la fois le signal de reconstruction et le signal de classification, n'est-ce pas ? Je n'ai pas fini par les utiliser. C'était juste pour démontrer pourquoi je pense qu'ils ne sont pas très bons. Je vois, d'accord.
Mais c'est pour le monolingue. Pour le multilingue, avez-vous ce genre de comparaison ? Je suppose que vous pourriez comparer cela. Il y a eu des travaux récents sur l'utilisation d'auto-encodeurs dans un cadre multilingue. Hugo Larochelle et son groupe ont publié des choses là-dessus. Je suppose que vous pourriez comparer cette approche et voir si cela fonctionne également bien. Personnellement je pense que notre approche est un peu plus élégante parce que premièrement c'est plus rapide que de devoir construire un arbre de reconstruction et je pense qu'on apprend des représentations plus sensées. Si vous utilisez quelque chose comme un auto-encodeur alors vous devez prédire la représentation de l'autre côté, typiquement en insérant des arbres sources. Je suppose que vous pourriez comparer cela directement mais je n'ai pas fait grand-chose à ce sujet. Très bien, nous devrions remercier Karl encore une fois.