Voyage en traduction automatique

« Mais enfin, papa, tu ne vas pas aller là ! La traduction automatique, ça marche pas ! c’est pourri …», ainsi s’exprime la fille de l’auteur, 19 ans. Trait générationnel, elle est spontanée, directe.
L’auteur se gratte le front, légèrement ébranlé. Dans la main, il tient sa proposition d’embauche chez le leader mondial de la « machine translation ».

« Mais pourquoi dis-tu ça ? »

« Ben c’est pourri, c’est tout. Tu vas sur Internet, tu tapes un texte, et les mots sont bien traduits mais la phrase ne veut rien dire. C’est pour ça d’ailleurs que s’est probablement gratuit. Parce que cela ne marche pas. De toute façon, si ça marchait, il n’y aurait plus besoin d’apprendre les langues étrangères et tous les traducteurs de la planète seraient au chômage. »

Quelques mois plus tard, l’auteur a intégré SYSTRAN, il est à Dubaï au GITEX, le plus grand salon informatique au monde avec plus de 4000 exposants. Devant deux prospects d’Abu Dhabi, il traduit, du Français vers l’Arabe, un extrait des Misérables grâce au moteur Pure NeuralTM de SYSTRAN (https://demo-pnmt.systran.net/production#/translation).

Médusés les deux prospects s’enthousiasment : « Mais c’est meilleur que G… ! » « C’est incroyablement fluide et….humain ! »

La promesse est au rendez-vous : l’intelligence artificielle appliquée à la traduction automatique, le Pure NeuralTM Machine Translation (PNMTTM), délivre une qualité proche de l’humain, y compris sur des binômes de langues exotiques, comme le Japonais<>Coréen.

A bien y réfléchir, rien d’étonnant à cela, le principe du PNMTTM reposant sur le même paradigme que le cerveau. A l’instar des neurones, l’ordinateur répond à des stimuli (des entrées) et fournit une sortie que l’on corrige par retro-propagations. Il faut imaginer un très jeune enfant qui balbutie : « baaba » « non. Papa ». « Bapa ». « Non : Papa ».
Finalement l’enfant, avant même de comprendre la grammaire et l’orthographe, avant même qu’on ne lui explique la structure d’une phrase, est capable de communiquer. On parle avant d’écrire, sans avoir besoin de calculer à chaque fois l’alchimie d’une phrase.

Aujourd’hui le PNMTTM est une réalité grâce à :

  • La puissance des machines et de leurs GPUs (Graphical Processor Units). Comme les neurones, les GPUs donnent une réponse non binaire mais « nuancée », tel un neurotransmetteur plus ou moins dosé d’une synapse à l’autre.
  • La maturité des algorithmes.
    Pour représenter la combinatoire que doivent traiter les algorithmes de « Deep Learning », il faut se représenter un immense tableau de bord avec des millions de potentiomètres. L’apprentissage de la machine se fait en réglant un par un tous ces potentiomètres pour qu’un texte en entrée correspondent à la traduction souhaitée en sortie. Là où la complexité devient colossale c’est qu’en réalité le tableau de bord n’est pas une représentation à plat mais spatiale, avec plusieurs milliers de tableaux de bord installés chacun dans leur dimension (espace) propre.

Les moteurs de PNMTTM, une fois compilés, ont la même caractéristique qu’un cerveau. C’est une boite noire, non dissécable, non décompilable, habitée par une forme d’âme.
L’histoire dit que la fille de l’auteur, quelques années plus tard, aura finalement eu recours au Pure NeuralTM pour traduire avec une grande qualité, en anglais, en chinois, en arabe et en espagnol, son sujet de thèse développé conjointement avec une grande entreprise du CAC40 sur le thème de « l’innovation frugale » ; thèse traduite sans crainte de « fuites » de données, sans souci quant à la protection de la propriété intellectuelle, sans avoir à retoucher la terminologie éminemment précise du contenu.

Author: François Massemin, VP Opérations, SYSTRAN SAS