Chat GPT et SYSTRAN : Mêmes technologies, objectifs différents

ChatGPT et SYSTRAN utilisent certaines des mêmes technologies, mais avec un objectif très différent.

Les LLM (Large Language Models)

Cette technologie n’est pas nouvelle. Les LLM et les modèles de traduction sont surtout basés sur un même type d'algorithme : "les Transformers".

Les Transformers sont à la base des modèles et algorithmes de traduction SYSTRAN. SYSTRAN utilise également des LLMs dans ses process de production (nettoyage des données, correction, etc).

Cependant, ChatGPT et GPT-4 ont spécialisé leurs exécutions pour l'IA générative et ont largement communiqué avec le grand public à ce sujet.

Apprentissage de la machine

Les modèles de langue et les systèmes de traduction automatique sont entraînés à partir de grandes quantités de données textuelles. Ils utilisent des algorithmes d'apprentissage automatique pour identifier des patterns et des structures dans ces données d'entraînement. Une fois entraînés, ces modèles peuvent être utilisés pour générer du texte ou pour traduire des langues.

Techniques de pré-traitement

Les modèles de langues et les systèmes de traduction automatique utilisent des techniques de prétraitement pour nettoyer et normaliser les données textuelles avant de les utiliser pour l'entraînement.

Modèles de langues pré-entraînés

Les modèles de langues sont faits pour générer du texte / prédire la suite. ChatGPT est un LLM entraîné pour répondre à des questions. Les systèmes de traduction automatique peuvent utiliser des modèles pré-entraînés pour accélérer l'entraînement et améliorer la précision des traductions.

La recherche : une véritable opportunité pour SYSTRAN

SYSTRAN est toujours à la pointe de la technologie NMT grâce à son engagement continu dans la recherche et le développement des modèles de traduction automatique. L'entreprise dispose d'une équipe de chercheurs et de développeurs dédiée à la création de modèles innovants, qui sont testés et améliorés en continu pour offrir les meilleures performances possibles

Systran a donc toujours une longueur d’avance sur les technologies et les utilise à pleine capacité pour ses solutions de traduction automatique, son cœur de métier.

Systran utilise également les technologies OpenAI, le créateur de ChatGPT, et en particulier Whisper, traitement de la parole. Par ailleurs, Whisper, pour la reconnaissance de la parole et le traitement des fichiers audio, a été distribué sous une licence OpenSource, conformément au projet OpenAI d'origine et à son statut.

Whisper

Depuis, OpenAI a changé ses statuts pour devenir une société à but lucratif et a renforcé son partenariat avec Microsoft. Ainsi, ChatGPT n'est pas en open source, hormis un descriptive paper, et ce, contrairement aux avancées précédentes d'OpenAI.

SYSTRAN contribue à l’open source par le biais d’OpenNMT et expérimente en permanence les derniers LLM open source, y compris « Bloom » ou d’autres modèles.

La recherche universitaire et communautaire autour de LLM offre également de nombreuses opportunités pour SYSTRAN. Ainsi, la gestion des données d'entraînement et des modèles de langage est essentiellement l'activité principale de SYSTRAN.

SYSTRAN utilise déjà des LLM dans ses flux (par exemple BERT, T5, BLOOM, LABSE) :

Dans sa chaîne de création de données : pour aligner et filtrer des phrases, pour générer des données synthétiques, pour classer / annoter des données par domaine, etc.
De façon plus expérimentale : pour profiter des données monolingues, explorer de nouveaux cas d'utilisation (aides à l'écriture bilingue, correction grammaticale, etc.)

SYSTRAN utilise déjà des modèles de langues pour améliorer la qualité de ses modèles de traduction

En ce qui concerne les performances, SYSTRAN dispose déjà de moteurs d’inférence de pointe (fonctionnant sur des CPU), qui offrent les meilleures performances sur le marché pour des conditions matérielles « raisonnables ». Ce rapport est basé sur les Projet OpenNMT/Ctranslate2.

SYSTRAN explore déjà d'autres techniques de quantification (4 bits) pour exécuter ces LLM en interne sur des machines plus petites.