Traduction robuste des transcriptions vocales en français

Malgré un écart de performance réduit grâce à des approches directes, Les solutions en cascade, impliquant la reconnaissance automatique de la parole (ASR) et la traduction automatique (MT) sont encore largement utilisées dans la traduction vocale (ST).

Les approches directes utilisant un seul modèle pour traduire le signal vocal d'entrée souffrent du goulot d'étranglement critique de la rareté des données.

En outre, de nombreuses applications de l'industrie affichent des transcriptions vocales en même temps que des traductions, ce qui rend les approches en cascade plus réalistes et pratiques. Dans le cadre d'un ST simultané en cascade, nous proposons plusieurs solutions pour adapter un réseau MT neuronal prendre en entrée les transcriptions issues d'un système ASR.

L'adaptation est réalisée en enrichissant les transcriptions vocales et les ensembles de données MT afin qu'ils se ressemblent davantage, améliorant ainsi la robustesse du système à la propagation d'erreurs et améliorant la lisibilité des résultats pour les humains.

Nous abordons certains aspects tels que les limites de phrase, la majuscule, la ponctuation, les hésitations, les répétitions, les homophones, etc., tout en tenant compte de la faible latence requise par les systèmes ST simultanés.

Elise Bertin-Lemée, Guillaume Klein, Josep Crego, Jean Senellart

Robust Translation of French Live Speech Transcripts [PDF en anglais]

Traduction : comment fonctionnent l'IA et les réseaux de neurones ?

Comment SYSTRAN crée ses modèles de traductions spécialisés?

[Article en anglais] A New Approach to Software Localization with Lingoport and SYSTRAN

Je m’abonne à la newsletter DailyMT