Ni l’anglais ni l’esperanto ne se sont finalement imposés comme langues universelles. Pour nous comprendre les uns les autres, il nous reste une solution vieille comme le monde : la traduction. Mais attention, la technologie s’en mêle et son objectif est très simple : l’automatisation.

Le 23 juin 2015, dans un article mis en ligne sur la plate-forme ArXiv.org, deux chercheurs de Google, Oriol Vinyals et Quoc V. Le, présentaient un modèle de « conversation neural », comprendre par là un logiciel capable de tchatter avec un humain et de lui parler de philosophie et de moralité. Un type très développé d’intelligence artificielle ? Pas vraiment. Pour répondre, ce logiciel ne réfléchit pas. Il se contente de puiser dans la masse colossale des données accumulées par Google. Les textes de nos sites web, mais aussi ceux de nos conversations et de nos commentaires sont savamment triés, catégorisés et pondérés par leur fréquence, de manière à faire émerger la pensée dominante du web et à la régurgiter aux interlocuteurs. L’effet final est bluffant. « Mais ce logiciel ne peut rien créer, explique François Yvon, directeur du Laboratoire pour la mécanique et les sciences de l’ingénieur (Limsi), à Orsay. Il ne peut produire aucun contenu original. » Et pour cause : ce logiciel – un « chatbot » – est moins le fruit des recherches en intelligence artificielle que celui des travaux en traduction automatique des textes. Un champ de recherche ancien, né sous l’impulsion du mathématicien Warren Weaver au lendemain de la Seconde Guerre mondiale. A l’époque, il s’agissait de faciliter l’espionnage de l’URSS par les Etats-Unis en automatisant les processus de traduction du russe vers l’anglais. Le 7 janvier 1954, au gré d’une collaboration entre IBM et l’université de Georgetown, à Washington, des chercheurs sont parvenus à traduire de façon automatique quelque 60 phrases russes dans la langue de Shakespeare. Les possibilités restaient cependant très limitées puisque, pour réaliser sa tâche, l’ordinateur n’intégrait que six règles grammaticales et un lexique de 180 mots.

Traduction automatique, rêve ou fantasme ?

Des débuts timides, mais prometteurs
Les chercheurs, optimistes, estimaient de trois à cinq le nombre d’années de recherches nécessaires pour aboutir à un traducteur automatique performant. D’où un effort financier massif de la part du gouvernement américain. Un soutien sur plus de dix ans, finalement, qui cessera en 1966, après l’avis plutôt mitigé rendu par l’Alpac (Automatic Language Processing Advisory Committee), un comité d’experts chargé de juger de l’avancée des travaux financés et qui avait tout bonnement décidé que cette recherche n’aboutirait ­jamais. « Pour les scientifiques, le problème s’est révélé bien plus compliqué à résoudre que prévu, et ce au moins à trois niveaux », souligne le directeur du Limsi. D’abord, il fallait parvenir à décomposer chacune des langues, puis à traduire correctement chaque mot. Par exemple, les mots take ou car, en anglais, peuvent revêtir une multitude de sens différents selon le contexte. Enfin, il fallait arriver à reconstituer la phrase dans la nouvelle langue, alors que les structures des deux langues sont parfois complètement différentes. « Pendant des décennies, des recherches ont piétiné parce que les chercheurs tentaient de répondre à ces problèmes complexes en utilisant des dictionnaires et des règles grammaticales », explique François Yvon. Il a fallu attendre la fin des années 80 pour assister à un tournant. A l’époque, dans les laboratoires d’IBM, des chercheurs ont réussi à créer un système de reconnaissance vocale capable de transcrire le langage parlé en texte écrit, en utilisant une approche statistique basée sur l’analyse de bases de données linguistiques. Au lieu d’écrire très exactement ce que la machine perçoit, le logiciel écrit ce qu’il a probablement entendu. Une nuance qui, dans les années qui suivent, relance les recherches en traduction automatique. L’idée, dès lors, est de traduire en utilisant non plus des règles, mais des bases de données réunissant des textes traduits dans les deux langues concernées. Dans les années 2000, Franz Joseph Och convainc Google du bien-fondé de cette approche dite statistique. « Beaucoup de phrases utilisées sur Internet sont des clichés, des poncifs, qu’un logiciel peut reconnaître afin de prédire la suite, ce qui aide pour la traduction », poursuit François Yvon. Au début, Google a utilisé cette traduction simplement pour indexer les sites. Ce mode de traduction produisait un charabia incompréhensible destiné seulement aux machines. Pour imaginer proposer un service de traduction aux humains, il fallait aller beaucoup plus loin. Ce que Google a fait.  « Google manipule des centaines de langues au quotidien et possède des bases de données colossales », rappelle François Yvon. De quoi faire progresser des logiciels qui, aujourd’hui, mêlent statistiques et règles. Pour autant, tous les problèmes n’ont pas été résolus, loin de là. D’abord, certaines expressions, rares ou peu fréquentes dans un contexte écrit, sont presque toujours écartées. Par exemple, l’expression « prendre à droite », très courante à l’oral dans le contexte de la circulation routière, est incompréhensible pour un traducteur. De plus, Google puise dans l’immense corpus de textes anglais traduits en plusieurs langues comme principale base de données. Résultat, pour traduire du français en italien, le moteur de recherche passe d’abord par l’anglais comme langue pivot, puis de l’anglais à l’italien, entraînant de nombreuses bizarreries, voire des contresens.

Une tâche ardue, même pour Google
« La langue n’est pas un ensemble continu, commente François Yvon. Il ne s’agit pas d’un tout. Elle est fragmentée, composée d’une multitude de registres, de niveaux de langue, entre lesquels nous passons mentalement. » Le verbe juger n’aura ainsi pas le même sens dans un contexte quotidien que dans le monde juridique. « Pour un logiciel, ce découpage est difficile à percevoir », poursuit le directeur du Limsi. De plus, pour utiliser les méthodes statistiques, il faut posséder un grand nombre de textes très exactement traduits dans les langues concernées. Or, la plupart de ces textes sont juridiques, techniques, médicaux ou littéraires et ont recours à des registres très particuliers. Cette matière est déjà difficile à trouver quand il s’agit de langues usuelles (anglais, français, espagnol), mais elle devient rare, voire inexistante, dès qu’on s’intéresse à des langues minoritaires et qu’on essaie, par exemple, de passer du turc au coréen. La tâche est ardue même pour Google. C’est pourquoi le géant du web n’hésite pas à faire appel à la communauté des internautes pour étoffer ces données avec Google Translate Community. En outre, un comité ISO est en train de définir des règles universelles pour décrire toutes les langues du monde. De quoi favoriser le traitement des données. Notons que l’affaire se complique encore lorsqu’on a recours aux traducteurs vocaux, censés effectuer une traduction simultanée, car les registres de langue diffèrent entre l’écrit et l’oral. De plus, les paroles ne sont pas toujours « audibles » par l’ordinateur. Pour autant, quelques initiatives fonctionnent peu ou prou, comme Skype Translator qui, en mars 2014, a traduit en temps réel les propos de deux internautes, l’un hispanophone, l’autre anglophone. Certaines plates-formes Internet comme Voxalead et Quaero sont, de plus, ­capables d’effectuer l’indexation de vidéos en fonction de leur contenu audio. Si la traduction automatique n’est pas pour demain, les progrès dans ce domaine sont déjà bien réels.

5 questions à Hermann Ney

Directeur du département de science informatique de la RWTH Aachen University (université technique de Rhénanie‑du‑Nord‑Westphalie).

Hermann Ney, Directeur du département de science informatique de la RWTH Aachen University (université technique de Rhénanie‑du‑Nord‑Westphalie).

The Good Life : Obtiendra-t-on un jour des logiciels de traduction parfaits ?
Hermann Ney : Cela me semble difficile, en particulier pour des traductions dans tous les domaines ou dans tous les genres. Même pour l’homme, cette tâche est très complexe. Selon moi, ces logiciels auront toujours des lacunes. Y compris dans les langues dominantes.
TGL : Quelles sont les stratégies actuelles pour améliorer les modèles de traduction ?
H. N. : On peut, d’une part, améliorer les méthodes mathématiques, via des études sur les statistiques, l’apprentissage ou les réseaux neuronaux et, d’autre part, introduire de nouveaux modèles, pour gérer certaines particularités, linguistiques notamment.
TGL : Vous est‑il arrivé, au cours de votre carrière, d’être surpris par certains résultats ?
H. N. : J’ai été surpris de voir les méthodes statistiques devenir dominantes si vite. En 1996, nous étions trois dans le monde à utiliser cette approche. Dix ans plus tard, elle avait remplacé toutes les autres.
TGL : Quel est l’impact économique potentiel de cette recherche ?
H. N. : L’impact direct (vente de logiciels ou de traducteurs) est faible. Mais les conséquences indirectes pourraient être bien plus importantes, notamment parce que ces logiciels permettraient à une multitude d’entreprises d’avoir recours à une traduction jusque‑là trop onéreuse et de conquérir de nouveaux marchés.
TGL : Google a-t-il des concurrents en matière de traduction ?
H. N. : Google a accès à toutes les données virtuelles du monde, mais n’a inventé aucune méthode de traduction. Des équipes extérieures l’ont fait. Des groupes de recherche dans le monde académique ou industriel ont un niveau équivalent à celui de Google, comme IBM, BBN et Microsoft ou les universités ISI Los Angeles ou Carnegie Mellon University (CMU) Pittsburgh, aux Etats‑Unis. En Europe, il y a le Laboratoire d’informatique pour la mécanique et les sciences de l’ingénieur (Limsi), à Paris, ou la Fondazione Bruno Kessler (FBK), en Italie. Ces équipes n’ont pas accès aux données de Google, mais elles sont compétitives en termes de méthodologie et de recherche.

Thématiques associées