Terminologie et traduction automatique neuronale : notre fonction de dictionnaire utilisateur expliquée !

traduction de modèles

Dans différents lieux de travail, de nombreuses connaissances sont accumulées dans les lexiques, qui révèlent une grande variété d'usages, de la spécification de termes spécialisés à l'introduction de marques et de concepts d'affaires.

Forte de plus de 50 ans d'expérience, notre équipe de recherche a présenté à REFROIDISSEMENT 2020 la technique sous-jacente à la fonction de dictionnaire utilisateur, conçue pour polir la traduction automatique et lui donner une saveur appropriée à travers les mots. Cette présentation a été enregistrée et est disponible ici.

D'une part, les approches de pointe pour intégrer la terminologie dans NMT spécifient la forme du terme cible avant la traduction via des annotations en ligne (voir exemple) ou un décodage contraint. Ignorant ainsi le contexte cible où il apparaît.

D'autre part, les modèles NMT opèrent sur des mots sous la forme de points d'un espace continu multidimensionnel, mais ils en savent implicitement beaucoup sur les mots ? ils manipulent : similarité sémantique, catégorie morphologique, sexe, nombre, cas, précision, élision, ordre des mots ?

Notre article montre comment nous pouvons exploiter cette connaissance implicite en enseignant un modèle pour manipuler des étiquettes explicites représentant des mots. Des exemples sont donnés pour la traduction de l'anglais vers l'espagnol dans tout ce qui suit.

Ceux-ci0 précédents1 antécédents2 boîte0 être0 prolongé1 ampliaire2.0

Se pueden ampliaire esos antécédents.
Annotation en ligne (Dinu et al., 2019)

 

Ceux-ci
peut être .


Se pueden esos .
Espaces réservés morphologiques ? Dictionnaires utilisateur (Michon, Crego et Senellart, 2020)

 

En conséquence, un modèle unique formé avec des données de domaines génériques uniquement (procédures et actualités européennes) peut améliorer à la volée sa traduction dans des domaines spécialisés :

Passer de la signification littérale des mots à des significations plus symboliques, par exemple dans l'informatique :

Exemple 1 : Justifier la cellule contenu

Aucun UD ? ?cell ? au sens biologique
Justifica el contenido de las células
Avec UD ? ?cell ? au sens informatique
Justifica el contenido de la celda

Exemple 2 : Vous pouvez déplacer les vues existantes en faisant glisser la manipuler le sommet de la vue.

Aucun UD ? ?handle ? au sens physique
Puedes mover las vistas existentes arrastrando la empuñadura sobre las vistas alrededor.
Avec UD ? ?handle ? au sens informatique
Puedes mover las vistas existentes arrastrando al manejador encima de las vistas.

Adopter des nuances différenciées pour un mot similaire selon le domaine

Le mot ?se déplacer? trouvé dans terminologies est traduit comme :

  • Decisión ?décision ? comme nom dans un Domaine juridique

Le Comité s'en félicite se déplacer à la lumière de l’élargissement et de l’engagement de la Commission en faveur d’une meilleure réglementation.

Aucun UD ? ?déplacer ? traduit par ?avancer ?
El Comité acoge con satisción este avancer a la luz de la ampliación y del compromis de la Comisión de mejorar la reglamentación.
Avec UD ? ?move ? traduit par ?decision ?
El Comité acoge con satisción esta décision a la luz de la ampliación y del compromis de la Comisión de legar mejor.
  • Manitoba ?manœuvrer ? comme nom dans un Domaine de News

Le Hezbollah déplacements Il s’agissait clairement d’une défaite pour les États-Unis et l’Arabie saoudite.

Aucun UD ? ?se déplace ? traduit par ?étapes ?
Dernier medidas de Hezbolá fueron claramente una derrota para Estados Unidos y Arabia Saudita.
Avec UD ? ?se déplace ? traduit par ?manœuvres ?
Dernier maniobras de Hezbolá fueron claramente una derrota para Estados Unidos y Arabia Saudita.
  • Movimiento ?motion ? sous forme de nom et migrar ?migrer ? en tant que verbe dans un domaine informatique ou Web

Exemple 1 : Annuler un précédent se déplacer (plusieurs fois si nécessaire).

Aucun UD ? ?move ? traduit par ?game action ?
Deshacer una jugada prævia (repetidamente si es necesario).
Avec UD ? ?déplacer ? traduit par ?motion ?
Deshacer un movimiento antérieure (répétidamente si es necesario).

Exemple 2 : Il y a plusieurs façons de se déplacer envoyer un e-mail de votre solution existante à Gmail.

Aucun UD ? ?move ? traduit par ?move ?
Hay varias maneras de déménageur el correo electrónico de su solución existente a Gmail.
Avec UD ? ?déplacer ? traduit par ?migrer ?
Hay varias formas para migrar correo electrónico desde su solución effective a Gmail.

Un tel contrôle morphologique des termes injectés présente l'avantage principal d'accommoder des inflexions de mots bien adaptées, à la fois lors de la détection du terme à la source et de son intégration dans la cible, même celles qui sont irrégulières ou ne peuvent pas être capturées par une correspondance floue: ?souris ? au pluriel de ?souris ? en anglais, ?sigue ? sous forme conjuguée de ?seguir ? en espagnol, etc.

Et cela fonctionne de l'anglais à l'espagnol, mais pas seulement. Grâce à de nombreuses années de production méticuleuse de ressources linguistiques, nous abordons des schémas morphologiques variés et complexes entre les langues, comme le montrent ces quelques exemples traduits en anglais comme : « Ceci reflète le processus de consolidation en cours en traduction automatique neuronale.«

  • En turc :
UD seul : nöral makine çevirisi
«traduction automatique neuronale«

UD dans la phrase : Mais le blé dur, nöral makine çevirisinde devam eden konsolidasyon sürecini yans?tmaktad?r.
« Cela reflète le processus de consolidation en cours en traduction automatique neuronale».
  • En russe :
UD seul : ????????? ???????? ???????
«traduction automatique neuronale«
UD dans la phrase : ??? ???????? ??????? ??????? ???????????? ? ????????? ???????? ????????.
« Cela reflète le processus de consolidation en cours en traduction automatique neuronale».
  • En coréen :
UD seul : ???? ??
«traduction automatique neuronale«
UD dans la phrase : ??? ???? ???? ?? ?? ?? ??? ????.
« Cela reflète le processus de consolidation en cours en traduction automatique neuronale».

Il est intéressant de noter que l'article compare non seulement en termes de score BLEU l'approche d'annotation en ligne (+1,25 en moyenne sur les domaines spécialisés) et notre technique d'injection terminologique (+2,15), mais analyse également leur taux d'injection de terme et les types d'erreurs lorsque le terme de référence n'est pas injecté.

Il démontre que, lorsque les termes ne sont pas déjà présents dans la traduction de base, donc lorsqu’ils ont le véritable potentiel d'améliorer la traduction, notre technique offre une garantie supplémentaire de les injecter correctement dans la traduction (78%) par rapport à l'annotation en ligne (63%).

Et, quand on n'injecte pas le terme correct, les modèles entraînés avec des dictionnaires utilisateur injectent une variante proche du terme original, avec un cas différent (6%) ou une inflexion (13%) mais intégrés dans la phrase, alors qu'un modèle entraîné avec annotation en ligne ignore simplement l'annotation (34%), qui peut être cruciale pour nom de la maladie, du médicament ou du produit.

Exemple 1 : Traitement et prévention de Pneumonie Enzootique Porcine.

Non UD : traduit par ?pneumonie enzootique ?
Tratamiento y prevention de la neumonía enzoótica.
En ligne : traduit comme swinese ? pneumonia ?
Tratamiento y prevention de la Neumonía Svinosa.
Avec UD : traduit comme Pneumonie enzootique porcine ?
Tratamiento y prevention de la Neumonía enzoótica porcina.

Exemple 2 : Dans une étude clinique, la exigence pour propofol et thiopental a été réduite par 30% et 60% respectivement.

Non UD : traduit comme l'exigence de proposition et d'inclusion ?
En un estudio clínico, el requisito de proposition y de inclusion se redujo en un 30% y un 60% respectivamente.
Inline : traduit par ?les besoins en profol et thiopental ?
En un estudio clínico, las necesidades de profol y tiopental se redujeron en un 30% y un 60% respectivamente.
Avec UD : traduit par ?le besoin de propofol et de thiopental ?
En un estudio clínico nécéssité de propofol y tiopental se redujo en un 30% y un 60% respectivamente.

En bref, le modèle n'apprend pas un comportement de copie simple de la source à la cible, mais utilise ses connaissances linguistiques pour intégrer les termes pertinents de manière plus fiable et plus précise.

À SYSTRAN, nos modèles ont été spécialement formés pour prendre en compte votre contribution : n'attendez pas pour leur enseigner ce que vous savez !

En savoir plus

Auteur
Elise Bertin, Responsable produit IA & ML
Temps
Lecture : 5 min.
S'inscrire à la newsletter
Retrouvez toute l'actu et les dernières technos. Un magazine conçu par SYSTRAN