Ce document [Article en anglais] Boosting Neural Machine Translation with Similar Translations [PDF] explore des méthodes d'augmentation de données pour entraîner la traduction automatique neuronale à utiliser des traductions similaires, d'une manière comparable, un traducteur humain utilise des correspondances floues.
En particulier, nous montrons comment nous pouvons simplement présenter le modèle neuronal avec des informations des côtés source et cible des correspondances floues, nous étendons également la similarité pour inclure des traductions liées sémantiquement récupérées à l'aide de représentations distribuées de phrases.
Nous montrons que les traductions basées sur une correspondance floue fournissent au modèle des informations de « copie », tandis que les traductions basées sur des similarités d'incorporation tendent à étendre le « contexte » de traduction.
Les résultats indiquent que l'effet des deux phrases similaires s'ajoute pour améliorer encore la précision, se combinent naturellement avec le réglage fin du modèle et fournissent une adaptation dynamique pour les paires de traduction invisibles. Les tests effectués sur plusieurs ensembles de données et domaines montrent des améliorations constantes de la précision.
Pour encourager la recherche autour de ces techniques, nous publions également une boîte à outils Open-Source avec une mise en œuvre de correspondance floue efficace et flexible.
Livre : «Compte rendu de la 58e réunion annuelle de l'Association de linguistique informatique«, pages 1580-1590, Association for Computational Linguistics, juillet 2020