Malgré un écart de performance réduit grâce à des approches directes, Les solutions en cascade, impliquant la reconnaissance automatique de la parole (ASR) et la traduction automatique (MT) sont encore largement utilisées dans la traduction vocale (ST).
Les approches directes utilisant un seul modèle pour traduire le signal vocal d'entrée souffrent du goulot d'étranglement critique de la rareté des données.
En outre, de nombreuses applications de l'industrie affichent des transcriptions vocales en même temps que des traductions, ce qui rend les approches en cascade plus réalistes et pratiques. Dans le cadre d'un ST simultané en cascade, nous proposons plusieurs solutions pour adapter un réseau MT neuronal prendre en entrée les transcriptions issues d'un système ASR.
L'adaptation est réalisée en enrichissant les transcriptions vocales et les ensembles de données MT afin qu'ils se ressemblent davantage, améliorant ainsi la robustesse du système à la propagation d'erreurs et améliorant la lisibilité des résultats pour les humains.
Nous abordons certains aspects tels que les limites de phrase, la majuscule, la ponctuation, les hésitations, les répétitions, les homophones, etc., tout en tenant compte de la faible latence requise par les systèmes ST simultanés.