[Article en anglais] Open Source, Multilingual AI and Artificial Neural Networks : The new Holy Grail for the GAFA

Depuis 2016, il y a eu une forte augmentation des projets de traduction automatique open source basés sur des réseaux neuronaux ou NMT (Neural Machine Translation) dirigés par des entreprises telles que Google, Facebook et SYSTRAN. Pourquoi la traduction automatique et les innovations liées aux NMT sont-elles devenues le nouveau Graal des entreprises technologiques ? Et l'avenir de ces entreprises repose-t-il sur la traduction automatique ?

Jamais auparavant un domaine technologique n'a connu autant de perturbations en si peu de temps. Inventé dans les années 1960, la traduction automatique a été fondée sur des règles grammaticales et syntaxiques jusqu'en 2007. La modélisation statistique (connue sous le nom de traduction statistique ou NME), qui a mûri en raison de l'abondance des données, a ensuite pris le relais. Bien que la traduction statistique ait été introduite par IBM dans les années 1990, il a fallu 15 ans pour que la technologie soit adoptée à grande échelle. La traduction automatique neuronale, quant à elle, n'a mis que deux ans à être largement adoptée par l'industrie après avoir été introduite par les universités en 2014, ce qui montre l'accélération de l'innovation dans ce domaine. La traduction automatique connaît actuellement un âge d'or de la technologie.

Des mégadonnées aux bonnes données

Non seulement ces vagues successives de technologie ont différé dans leur rythme de développement et d'adoption, mais leurs points forts clés ou « valeurs fondamentales » ont également changé. Dans la traduction basée sur des règles, la valeur a été apportée par le code et les ressources linguistiques accumulées. Pour les modèles statistiques, la quantité de données était primordiale. Plus vous aviez de données, meilleure était la qualité de votre traduction et de votre évaluation via le score BLEU (Bilingual Evaluation Understudy, l'algorithme le plus utilisé pour mesurer la qualité de la traduction automatique). Aujourd'hui, le passage à la traduction automatique basée sur les réseaux neuronaux et l'apprentissage profond est bien entamé et a entraîné des changements majeurs. Les moteurs sont entraînés à apprendre la langue comme un enfant le fait, en progressant étape par étape. Le défi n'est pas seulement de traiter des données exponentielles (Big Data) mais surtout d'alimenter les moteurs avec les données les plus qualitatives possibles. D’où l’intérêt pour les « bonnes données ».

NMT : La révolution de l'Open Source

Le facteur Open source est également une autre révolution qui change le paradigme du développement de la technologie de traduction automatique neuronale. Ces deux dernières années, deux nouveaux projets open source de traduction neuronale ont été lancés chaque mois. Qu'est-ce qui est encore plus impressionnant, c'est que beaucoup des acteurs derrière ces projets sont dans la sphère privée. Les trois projets les plus actifs aujourd'hui sont maintenus par Google, Facebook et SYSTRAN en collaboration avec Harvard NLP sur le projet OpenNMT. Ce qui est le plus surprenant, c'est que les principaux acteurs technologiques comme Google, Amazon et Salesforce n'avaient pas auparavant une culture Open Source active. On peut alors se demander pourquoi ils s'intéressent autant au open source aujourd'hui.

Une technologie évolutive basée sur le modèle humain

En seulement 14 mois, la traduction neuronale a subi trois changements de paradigme majeurs en termes de technologie utilisée. Les premiers modèles utilisaient des RNN (réseaux neuronaux récurrents). Puis, à la suite d'une recherche menée par Facebook, la technologie s'est déplacée vers les réseaux de neurones à convolution (CNN). Maintenant, les SAT (Self-Attentional Transformers) sont plus largement utilisés, des modèles initiés par Google. Les modèles RNN ont traité la traduction mot par mot. Ceux de CNN l'ont traité de façon plus générale, en regardant les séquences de mots. Les approches actuelles axées sur l'attention, les SAT, ont la capacité d'« examiner » simultanément plusieurs parties de la phrase en identifiant des mots qui peuvent avoir un impact important sur sa compréhension et sa traduction. Nous nous rapprochons donc d'une approche humaine. Facebook utilise maintenant la traduction neuronale pour 100% de son contenu, en hausse par rapport à 50% en 2017. On estime que plus de 6 milliards de traductions sont traitées en ligne chaque jour. De toute évidence, investir dans la traduction neuronale est une démarche stratégique.

Une course Open Source qui masque une compétition

Un projet open source est intrinsèquement fragile : le lancement d'une nouvelle technologie open source est plutôt facile, mais il est beaucoup moins important de la maintenir, de la faire évoluer et de faire croître une communauté active. SYSTRAN investit beaucoup de temps à fournir un soutien aux utilisateurs de sa communauté OpenNMT, pour partager des données, analyser les commentaires, mettre à jour les algorithmes, assurer la stabilité et la compatibilité de la technologie. Alors, pourquoi ces grands acteurs technologiques mettent-ils autant d'efforts dans ces projets open source sachant qu'ils nécessitent des investissements importants, tant sur le plan financier qu'en termes de ressources ? La lutte va au-delà de la simple imposition d'un outil spécifique. Pour les utilisateurs, la traduction neuronale devient une marchandise comme l'eau courante ou l'électricité. Il est très probable qu'il deviendra une fonction intégrée dans la majorité des applications quotidiennes en raison de son coût très faible. Cependant, la valeur de base de NMT réside dans l'infrastructure ainsi que dans les services supplémentaires qui prendront en charge la nouvelle norme, que ce soit la connectivité et l'intégration ou la formation de ces moteurs dans des domaines d'activité très spécifiques pour une qualité de traduction sur mesure.

La prochaine étape : faire converger les efforts des principaux acteurs

Pour la normalisation à l'échelle du secteur, l'étape suivante est l'interopérabilité. Il permettra de transporter ces outils NMT d'une plateforme à l'autre. Pour ce faire, un projet de standardisation mené par Facebook, Microsoft et Amazon, ONNX (Open Neural Exchange) permet de rendre interopérables des réseaux neuronaux : un modèle formé avec un outil particulier sera convertible vers d'autres, rendant les réseaux neuronaux disponibles sur la technologie mobile indépendamment de leur cadre NMT d'origine. Cette standardisation et cette ouverture autour de la traduction neuronale encouragent également le développement d'applications connexes dans un bon esprit de « coopétition ». En témoignent un nombre impressionnant de développements récents tels que ceux des assistants virtuels ultra-intelligents et de l'apprentissage automatique non supervisé pour des traductions moins stratégiques (comme le sous-titrage). L'ajout de la notion de contexte à NMT, afin de permettre à l'algorithme de traiter un paragraphe entier, voire un document dans son ensemble, est également stratégique.

La bataille NMT Open Source ne fait que commencer !

Auteur
Alexandre, spécialiste des technologies de traduction
Temps
Lecture : 4 min.
S'inscrire à la newsletter
Retrouvez toute l'actu et les dernières technos. Un magazine conçu par SYSTRAN