Traduction automatique : le rôle de l’ingénieur linguiste

Ingénieur linguiste dans la traduction automatique

Chez SYSTRAN, de nombreux métiers gravitent autour des technologies de la traduction automatique. Parmi eux, l’ingénieur linguiste.

Focus sur les étapes majeures d'entraînement de la machine.

#1 Confectionner et préparer un corpus

Les machines de traduction<fonctionnent comme le cerveau humain : elles apprennent et se nourrissent grâce à l’existant. C’est en consultant des textes déjà traduits qu’elles découvrent comment traduire correctement et rapidement.

Pour les aider dans cet apprentissage, l’ingénieur linguiste va constituer un « corpus d’entraînement » – c’est-à-dire un ensemble de textes déjà traduits qui associent langue source et langue cible. Pour traduire ces textes, deux possibilités :

Pour traduire ces textes, deux possibilités :

  • se baser sur des données traduites en amont par des humains;
  • Faire traduire un corpus monolingue automatiquement (via le back-translation) puis l’utiliser dans le sens inverse. Par exemple, traduire de l’anglais au français puis utiliser le corpus dans un modèle français vers l’anglais.

Le rôle principal de l’ingénieur linguiste consiste ainsi à préparer les données et les ressources linguistiques afin de les rendre propres et lisibles par la machine.

À savoir : la base de corpus de SYSTRAN

Vous avez peu de données à votre disposition ? Vous pouvez acheter une base de corpus sur des sites professionnels et qualifiés, ou encore créer le vôtre à partir de sites bilingues dans la langue.

Dans ce cas, une vérification pointilleuse de la qualité sera faite par l’ingénieur linguiste.

Vérifier et garantir la qualité du corpus

Le choix et la qualité du corpus sont des points essentiels que vous ne devez pas négliger. C’est à partir de cette base que la machine va apprendre à traduire – et ce, en fonction d’un modèle générique ou très spécialisé.

Ainsi, une fois le corpus créé, vous devez en vérifier la propreté et la qualité : si le moteur de traduction est entraîné avec des erreurs, vos traductions comporteront les mêmes problèmes.

Quelques exemples de problèmes à identifier, filtrer et réparer :

  • un mauvais encodage des accents (caractères cassés),
  • un mauvais alignement (par exemple, « today is December 13th » en langue source et « aujourd’hui, c’est le 16 décembre » en langue cible.
  • la présence d’une langue autre que celle prévue (par exemple, pour un corpus anglais-français, une phrase en anglais traduite par du russe).

Focus : anonymisation & confidentialité du corpus

Un corpus peut contenir des noms propres et des données sensibles. Il est donc primordial de garantir l’anonymisation et la confidentialité de toutes les informations qu’il contient.

Votre corpus doit être utilisé pour entraîner le moteur de traduction uniquement. Aucune information confidentielle ne doit être présente dans la ressource de traduction, ni être utilisée.

À noter : les corpus sont majoritairement Open Source. Ils sont donc régis par une licence qui indique

des conditions d’utilisation très normées.

Un corpus riche et varié, un gage de qualité

Plus votre corpus est riche (beaucoup de vocabulaire de différents domaines) et varié (différentes structures de phrases), plus la traduction automatique sera qualitative.

L’ingénieur linguiste veille notamment à y inclure les règles de ponctuation et les expressions phares à favoriser.

#2 Préparer les ressources linguistiques

Le rôle de l’ingénieur linguiste ne s’arrête pas à la préparation de corpus. Il doit aussi préparer diverses ressources linguistiques utilisables par le modèle de traduction.

L'utilisation des ressources

Les ressources linguistiques sont des procédures et autres règles qui permettent aux ingénieurs linguistes d’identifier les problèmes de traduction – qu’ils soient récurrents ou ponctuels. Ces dernières aident à :

  • nourrir le cerveau de la machine via de bons contenus traduits ;
  • gérer les spécificités d’une langue (règles) ;
  • traduire un texte dans une langue locale (anglais britannique vs. américain) ;
  • répondre aux besoins des clients ;
  • nettoyer le corpus avant son intégration.

En ce sens, il est essentiel d’appliquer des règles et des bonnes pratiques lors de l’entraînement de la machine pour résoudre les problèmes et ajuster le corpus. Et c’est le rôle des ingénieurs linguistes d'identifier et de créer ces ressources.

Le but ? Essayer de trouver les meilleurs paramètres selon les savoir-faire propres à chaque langue.

L’importance des ressources linguistiques

Cette approche permet de découvrir les problématiques de certaines langues et de les gérer dans la machine. Certaines langues ont d’ailleurs de vraies aspérités à prendre en compte :

  • Comment segmenter les phrases ?
  • Quelles sont les règles de ponctuation à appliquer ?
  • Quelles sont les expressions phares ?

Le petit plus ? Les ressources linguistiques sont identifiées par un acteur humain, l’ingénieur linguiste. Elles ont donc une véritable valeur ajoutée contrairement à la traduction automatique en ligne, qui dépend d’une machine.

#3 Faire tourner le cerveau de la machine

Une fois le corpus prêt et nettoyé et les ressources identifiées, l’ingénieur linguiste peut définir les paramètres du modèle et ce que le moteur apprendra.

  • Est-il possible de proposer des traductions avec différents tons de voix ?
  • Le modèle peut-il s’adapter au vouvoiement ou au tutoiement ?
  • Est-il possible d’appliquer une localisation spécifique à la traduction ?

L’expert va intégrer toutes les spécificités à connaître dans le cerveau de la machine (une technologie faite par différentes équipes, dont les ingénieurs de développement). La machine pourra ainsi apprendre le corpus et connecter les langues sources et cibles.

C’est ce que l'on appelle l’entraînement.

De manière générale, cet entraînement est nourri de 1 à 10 millions de lignes de données et peut être plus ou moins rapide selon le volume de ressources. Plus il y a d’informations, plus la machine tourne pour apprendre. Il en résulte une « ressource de traduction » fiable et précise.

#4 Evaluer et Itérer

Un moteur de traduction apprend en tournant en boucle. Le rôle de l’ingénieur linguiste est donc d’évaluer à quel moment ledit moteur est « mature » – c’est-à-dire lorsque les traductions sont précises, naturelles et fluides et peuvent être mises à la disposition des utilisateurs.
Le modèle a tourné ? Reste à évaluer la ressource de traduction créée. Pour cela, un système de score est utilisé score bleu - pour comparer les  traduction d'un fichier texte et celle de la machine, effectuée en amont.

Le système va évaluer la proximité entre la traduction de machine et la traduction humaine. Plus elles sont proches, plus la note attribuée est élevée. À l’inverse, plus elles sont différentes, et plus la note est basse. Si ce score a ses limites, il donne une bonne base d’analyse de la performance de la ressource créée.

En fonction de cette première évaluation, les ressources peuvent être retravaillées et une itération est faite : le modèle tourne à nouveau. Puis, encore, on évalue la ressource qui en sort.

L’objectif est de comprendre les problèmes de traduction et de déterminer les axes d’amélioration. C’est là qu’intervient l’évaluation humaine de l’ingénieur linguiste. Il va aussi vérifier les traductions des divers fichiers de tests qui représentent différents domaines ou problématiques.

#5 Livrer les traductions réalisées

Lorsque l’évaluation est satisfaisante, le modèle de traduction et la ressource sont livrés. Néanmoins, il est possible de revoir un modèle si :

  • des problèmes dans la traduction à l’usage surgissent ;
  • la nomenclature interne est revue (par exemple, quand un client souhaite ajouter un espace devant un caractère de langue ou intégrer des organigrammes) ;
  • un bug intervient (par exemple dans la gestion des balises).

La richesse linguistique d’un moteur de traduction provient du corpus – la base d’apprentissage du cerveau de la machine. Il y a donc un véritable enjeu à choisir le bon corpus et à s’assurer de sa qualité. Il permet une traduction automatique qualitative et très pointue dans le cadre d’un modèle de traduction spécialisé.

Auteur
Alexandre, spécialiste des technologies de traduction
Temps
Lecture : 5 min.
S'inscrire à la newsletter
Retrouvez toute l'actu et les dernières technos. Un magazine conçu par SYSTRAN