Ardas Khalsa est ingénieure linguiste depuis plus de 9 ans chez SYSTRAN. Son rôle est d’enrichir les ressources linguistiques et d’entraîner des modèles de traduction automatique. Découvrez son portrait, son métier et ce qui l’anime au quotidien.
Pouvez-vous vous présenter ?
Je suis Ardas, ingénieure linguiste chez SYSTRAN depuis 9 ans. Je fais partie d’une équipe centrée sur le développement linguistique, qui comprend des chercheurs, des ingénieurs et des ingénieurs linguistes.
Au sein de cette équipe, chacun a sa spécialité : qu’il s’agisse du traitement des données, de la recherche de nouvelles méthodes, du développement linguistique ou de la création et l’enrichissement des modèles de traduction. Chaque ingénieur linguiste de l’équipe est aussi spécialiste d’une famille de langues (germaniques, latines ou slaves par exemple).
Mes langues-phares sont l’anglais et l’espagnol mais je peux aussi travailler sur des langues pour lesquelles je ne suis pas bilingue en fonction des besoins, comme l’arménien ou le géorgien. D’ailleurs, je travaille actuellement sur une langue africaine : le haoussa.
Qu’est-ce qu’un ingénieur linguiste ?
Chez SYSTRAN, l’ingénieur linguiste travaille sur la création et l’amélioration de moteurs de traduction. Pour chaque paire de langues, nous nourrissons cedit moteur avec des données : il s’agit essentiellement de traductions de bonne qualité et de ressources linguistiques dédiées capables de couvrir des particularités d’une langue source et cible. Nous accompagnons également l’entraînement du moteur sur ces données, pour qu'il apprenne à traduire de nouveaux contenus dans d’autres contextes, grâce aux exemples examinés et à ses capacités qui relèvent de l’intelligence artificielle.
Le moteur de traduction est le « cerveau » qui permet à la machine de traduire. Des textes devraient être fournis pour permettre une amélioration et un apprentissage continus. Cet outil, ainsi entraîné, permet de gagner en précision, en temps, en coût, mais aussi d'obtenir une traduction plus humaine et fluide.
Comment s’y prendre ?
Lors de la création d’un moteur de traduction pour une nouvelle paire de langues ou pour enrichir la base de données, je vais collecter les meilleures données bilingues possibles – aussi appelées corpus bitexte – et les préparer pour les rendre le plus « propre » possible.
Pour cela, je vais identifier puis corriger ou filtrer les éventuels problèmes dans ces données. Il peut s’agir de segments non alignés (une traduction qui ne correspond pas à la source) ou de caractères cassés (un problème d’encodage pour un caractère accentué).
Qu’est-ce qui définit un bon corpus selon vous ?
Le corpus est un texte déjà traduit qui permet d'entraîner la machine comme un cerveau humain : plus elle apprend, plus elle sait et mieux elle traduit. La qualité du corpus est donc primordiale pour traduire correctement les contenus. Chez SYSTRAN, un point d’honneur est mis sur cet aspect. Un corpus de qualité doit être bien aligné – les correspondances entre les langues doivent être bien faites – et les erreurs de fond et de forme bien corrigées.
Quelles sont tes autres missions ?
En parallèle de cette tâche, j’enrichis la documentation interne utilisée par nos utilisateurs ou nos partenaires pour expliquer et rendre publiques les mises à jour du moteur. Je travaille également avec les équipes R&D, qui regardent la traduction dans son contexte, et crée, pour eux, des fichiers de test en identifiant les phrases intéressantes à tester. En tant qu’ingénieure linguiste, je suis parfois sollicitée pour donner mon avis sur la précision d’une traduction.
Le rôle d’ingénieur linguiste est un vrai gage de qualité d'entraînement de la machine et donc de la performance de la traduction automatique. C’est également un rôle pilier, puisque les ingénieurs linguistes travaillent, en transverse, avec des ingénieurs techniques et le service R&D.
En savoir plus sur le métier d'ingénieur linguiste