[Article en anglais] The 6 Greatest NMT Breakthroughs

Historique de traduction automatique

Au cours des dernières années, la traduction automatique neuronale (NMT) a été soumise à de nombreuses contraintes qui l'empêchent de faire l'objet d'une recherche et d'une adoption générales dans l'espace de la traduction. En 2016, Google Système de traduction automatique neuronale (GNMT) a promis de contourner les problèmes liés aux exigences de calcul. En utilisant l'arithmétique de faible précision pendant le calcul d'inférence et la subdivision de mots communs, GNMT a travaillé à augmenter le débit et la précision pour les calculs de mots rares. Aujourd'hui, GMNT est un composant essentiel de Google Translate.

NMT a atteint le sommet de la technologie de traduction. Salesforce a récemment lancé un nouveau projet sur Github qui utilise des balises XML pour augmenter la précision et le débit des solutions NMT. Récemment, Microsoft lancé Traducteur personnalisé version 2, qui utilise NMT pour améliorer les capacités de traduction. Et les dirigeants d'Amazon et de Google ont récemment eu une conversation avec Venture Beat pour discuter des tendances émergentes en traduction, dont la plupart s'articulent autour des réseaux neuronaux.

Nous avons parcouru un long chemin en peu de temps. SYSTRAN Group EX-président ? Jean Senellart ?  J'avais un panel à SlatorCon 2019, où il a discuté de certaines des activités de R&D en cours dans le domaine des NMT. Depuis de nombreuses années, Jean est impliqué dans NMT, depuis le projet open-source NMT : OpenNMT. Pendant ce temps, Jean a participé à divers projets NMT et a vu l'ensemble de l'industrie passer d'une technologie d'avenir freinée par les besoins informatiques à une technologie largement adoptée dans la haute technologie.

 

Alors, qu’est-ce qui se profile à l’horizon pour NMT ? Quels sont les projets de R&D à venir ? Et à quoi ressemble NMT dans l'espace technologique actuel ?

Spécialisation de domaine 

Le plus grand inconvénient de MT, en général, est peut-être ses limites en matière de compréhension du jargon et de la terminologie unique dès le départ. Avec les spécialisations de domaine construites par SYSTRAN, les utilisateurs peuvent cependant adapter les traductions pour comprendre les significations spécifiques à l'industrie derrière les mots couramment utilisés. Par exemple, le mot « épingle » a une signification différente dans les mondes financier, de la mode et médical. Avec un domaine spécialisé ? financial ?, le moteur comprendra automatiquement le contexte pour correspondre au reste du contenu. La spécialisation de domaine est la clé de voûte d'une NMT efficace et précise sans périodes de formation fastidieuses.

MT et mémoire de traduction (TM) 

Senellart a abordé la combinaison MT et TM, où MT exploite TM de la même manière qu'un traducteur le ferait pendant leur travail. Il mentionne un article qui sera publié cet été et qui met en œuvre la traduction dans le domaine, à la volée, en utilisant la TM. Senellart a dit qu'ils avaient fait quelque chose de similaire, appelé micro-adaptation, à SYSTRAN.

MT et post-édition 

Étant donné que NMT s'est avéré un peu plus utile que le MT statistique, la post-édition continuer à être une tendance à la hausse. Tout en notant l'avènement de la post-édition neuronale sans intervention humaine, Senellart a expliqué une nouvelle approche de post-édition qui utilise la TM post-éditée pour réentraîner le modèle NMT avec des données mises à jour dynamiquement. Dans ce cas, les données TM du post éditeur (déjà corrigées et ?annotées ?) reviennent dans le modèle NMT de recyclage.

?Où est l'humain dans la boucle ? Senellart a demandé au public de SlatorCon. L'humain dans cette boucle est à la fois le post-éditeur et l'annotateur de données.

Langues à faibles ressources

Il existe des centaines de langues utilisées en ligne pour lesquelles les données de formation pour les modèles MT sont rares, et les corpus de haute qualité sont encore plus rares. La plupart Langues asiatiquesPar exemple, les ressources sont faibles. Senellart a noté un modèle NMT impressionnant, entièrement non supervisé, étudié par Facebook qui a réussi à augmenter la qualité de la production près de trois fois en seulement 18 mois de développement.

?Ce domaine est l'un des plus prometteurs, ? Senellart a déclaré, ajoutant que Facebook travaillait maintenant sur : modèles autosupervisés et aussi.

Au-delà de la peine

Un autre défi auquel les chercheurs sont confrontés est d'ajouter un contexte externe aux résultats des NMT, en les traduisant au-delà de la phrase. ?Aujourd'hui, tous les systèmes NMT du monde sont basés sur des phrases. On sait que ça ne suffit pas. Si vous devez traduire un document, vous devez savoir de quoi il s'agit, n'est-ce pas? Senellart a dit. ?Vous devez établir des connexions entre les phrases. S'il y a des pronoms, vous avez besoin de la bonne anaphorisation entre les phrases, par exemple.?

Il a mentionné deux approches de la traduction NMT au-delà de la phrase qui prennent actuellement de l'ampleur : l'une où le modèle NMT se réfère à une phrase traduite précédemment pour le contexte ; une autre, de Unbabel, qui utilise des mots clés essentiels trouvés dans l'ensemble du document source pour informer la sortie de traduction.

Traduction multilingue

Senellart a également expliqué comment les systèmes de traduction multilingues, tels que la traduction automatique, peuvent traduire entre 100 langues à l'aide d'un modèle unique.

Un seul modèle pour traduire toutes les langues simultanément ? est comment Senellart a expliqué la traduction multilingue en un mot. ?La formation de modèles multilingues est très excitante car elle est proche de l'apprentissage non supervisé dans la mesure où chaque langue aide les autres. Quand vous traduisez de l'anglais vers le français, vous aidez l'espagnol, par exemple, parce qu'il y a beaucoup de similitudes. Le modèle découvre ce qui est similaire entre les langues et apprend des règles de traduction plus générales. ?

Auteur
Alexandre, spécialiste des technologies de traduction
Temps
Lecture : 3 min.
S'inscrire à la newsletter
Retrouvez toute l'actu et les dernières technos. Un magazine conçu par SYSTRAN