Quelles sont les nouveautés de la version 9.4.1 de SYSTRAN Pure Neural Server (SPNS) ?

Une nouvelle mise à jour de SPNS a été récemment publiée.

Quels sont les principaux avantages de la mise à jour vers la version 9.4.1 ?  L'amélioration la plus importante et la plus mémorable concerne peut-être la façon dont il gère les fichiers PDF.

SYSTRAN Pure Neural Server 9.4.1 améliore la fonctionnalité de traduction de fichiers pour les fichiers PDF, avec des améliorations de performance et de qualité du composant OCR, ainsi qu'avec un nouveau mode permettant l'extraction de texte sans OCR.  Il apporte également d'autres correctifs et améliorations.

SPNS 9.4.1 améliore la fonctionnalité de traduction de fichiers avec des améliorations du composant OCR, un nouveau flux pour optimiser les performances et un nouveau mode texte uniquement pour traduire les fichiers PDF compatibles.

Le filtre utilise maintenant IRIS IDRS SDK 15.4.6 pour les traductions PDF, avec un nouveau composant intégré pour charger les PDF, au lieu de les convertir d'abord en fichiers image. Par le passé, la reconnaissance optique de caractères nécessitait d'abord le rendu des pages d'un fichier PDF en une séquence de fichiers image PNG, ce qui nécessitait de l'espace disque et du temps supplémentaire. Avec la nouvelle version, le fichier PDF est directement numérisé par l'OCR, ce qui augmente les performances de traitement. En moyenne, le flux de traduction PDF est 40% plus rapide que dans la version précédente, avec également des améliorations de la qualité.

L'IRIS IDRS 15.4.6 apporte désormais également le soutien de la langue vietnamienne. Les fichiers PDF en vietnamien peuvent maintenant être traités par le serveur de traduction.

Dans certains scénarios, il est important de conserver la structure et la mise en page d'une page PDF, c'est pourquoi nous utilisons la reconnaissance optique de caractères pour essayer de reconstruire la même mise en forme ou une mise en forme similaire. Dans certains autres scénarios, cependant, vous n'en aurez peut-être pas besoin. Au lieu de cela, vous pourriez être seulement intéressé par le texte, simple et simple. Et vous voudrez qu'il soit plus rapide que par OCR.

Si vous êtes dans ce scénario, vous pouvez maintenant effectuer une extraction simple au lieu d'une conversion de texte basée sur OCR. Cela ne fonctionne bien sûr que si le PDF n'est pas une image numérisée, et n'a pas non plus d'autres facteurs bloquant l'accès au texte que vous voyez, tels que le chiffrement ou la protection par mot de passe.

Le scénario peut être typique dans eDiscovery/eAnalytics, lorsque vous êtes peut-être confronté à la tâche de traduire des milliers de fichiers PDF, mais ne se soucient pas vraiment de conserver la structure de formatage de ceux-ci. Vous ne voulez que les phrases, par exemple pour rechercher des mots-clés et faire votre travail analytique

Cette fonctionnalité est en mode ?beta ? à partir de la version 9.4.1 et peut être adaptée au cas d'utilisation où la vitesse de traduction est plus importante et l'extraction d'informations est plus importante que le style de formatage du fichier traduit.

Lors du téléchargement d'un fichier dans le menu Traduction de fichier, les utilisateurs ont maintenant le choix entre ?ocr ? (mode par défaut) et le mode ?fast pdf? pour traduire le fichier PDF.

Voici quelques fonctionnalités supplémentaires qui ont été ajoutées dans la version 9.4.1 :

  1. L'interface utilisateur est maintenant disponible en chinois.
  2. Amélioration des performances des traductions à l'aide du processeur graphique (jusqu'à 2 fois plus rapide sur le modèle V100) avec la nouvelle image commune.
  3. Pour la gestion des commentaires, un filtre sur la paire de langues a été ajouté pour récupérer rapidement tous les commentaires pour un LP donné
  4. Dans la vue Statistiques, il est maintenant possible de différencier si la requête de traduction a utilisé le cache ou généré une nouvelle traduction, avec la colonne ?Segment cache hits ?. Il indique le nombre de segments qui ont été extraits du cache. Rappel : La mise en cache avec Redis a été introduite il y a quelques versions. Il peut accélérer considérablement les traductions, mais il peut également être désactivé si cela est préférable, par exemple pour des raisons de confidentialité. Lorsque la mise en cache est utilisée et que vous traduisez du contenu hautement répétitif, tel que des décharges de responsabilité répétées à maintes reprises dans une longue chaîne de courriers électroniques, vous pouvez bénéficier de vitesses de traduction allant de 10 à 20 Ko par seconde et plus, même sur une seule instance, une installation simple du processeur.
Auteur
Alexandre, spécialiste des technologies de traduction
Temps
Lecture : 2 min.
S'inscrire à la newsletter
Retrouvez toute l'actu et les dernières technos. Un magazine conçu par SYSTRAN