Curation automatisée des actifs

Le contenu est traduit de l’anglais par Phrase Language AI.

La curation des mémoires de traduction est un problème persistant et le nettoyage manuel est un processus laborieux. Des mémoires de traduction propres conduisent à de meilleures références pour les linguistes et à une qualité de traduction automatique supérieure, ce qui est particulièrement pertinent pour Phrase NextMT, compte tenu de ses capacités avancées à tirer parti des actifs linguistiques, tels que les mémoires de traduction et les glossaires.

Créer un ensemble de données pour AAC

Pour créer un ensemble de données dans le but d'utiliser une MT curée dans un TMS, suivez ces étapes :

Sur la page Ensembles de données, cliquez sur Nettoyer une mémoire de traduction.

La page Détails de l'ensemble de données s'ouvre.
Fournissez un nom pour l'ensemble de données.
Les sélecteurs de langue permettent diverses options :
1. Pour créer un ensemble de données linguistique général, sélectionnez les mêmes langues source et cible dans les sélecteurs de langue source et cible et de paramètre linguistique.
2. Pour créer un ensemble de données spécifique à un paramètre linguistique, sélectionnez les langues source et cible dans la première liste déroulante, puis spécifiez les paramètres linguistiques source et cible dans la deuxième liste déroulante.
  
  Plusieurs paramètres linguistiques cibles (c'est-à-dire différentes variantes de la même langue) pour tirer parti de plus de sources de données peuvent également être ajoutés.
3. Pour créer un ensemble de données avec plusieurs paramètres linguistiques source et cible, sélectionnez les langues source et cible dans la première liste déroulante, spécifiez les paramètres linguistiques source et cible dans la deuxième liste déroulante (différentes variantes de la même langue cible peuvent être ajoutées) et cliquez sur + Ajouter plus de paires de paramètres linguistiques.
La fenêtre Données d'entrée apparaît.
Cliquez sur Ajouter des mémoires de traduction.

La page Choisir des mémoires de traduction s'ouvre avec une fonctionnalité de recherche .
Pour ajouter une MT à l'ensemble de données, cliquez sur l'icône . La MT est ajoutée à la colonne Sélectionné.

Plusieurs MT peuvent être ajoutées jusqu'à un maximum de 200 MT et un maximum de 8 millions de segments. Un ensemble de données devrait idéalement contenir au moins 10 000 segments.

Cliquer sur le nom du TM affichera la sélection sur la page de mémoire de traduction.

Cliquez sur l'icône pour retirer le TM de la colonne Sélectionné.
Cliquez Enregistrer.

La page Détails de l'ensemble de données s'ouvre.
Vérifiez les détails tels que présentés et si correct, cliquez Continuer.

La page Filtres de nettoyage s'ouvre.
Appliquez les filtres requis et cliquez Créer.

Le jeu de données est créé et ajouté à la liste sur la page des jeux de données avec le statut initial de Nettoyage et le statut de TM de nettoyage dans la colonne Créé pour.

Filtres de nettoyage pour AAC

Phrase AI personnalisée permet de créer des mémoires de traduction avec l'aide de filtres de nettoyage basés sur l'IA et des règles. Des paramètres par défaut sont fournis qui peuvent convenir aux nouveaux utilisateurs.

Ce processus préserve les métadonnées de segment TM d'origine et les tags TM qui permettent aux utilisateurs de maintenir l'exploitation du TM lors de l'utilisation des TMs nettoyés dans le TMS.

L'ensemble des filtres disponibles comprend à la fois des filtres basés sur des règles et des filtres basés sur l'apprentissage automatique :

Basé sur des règles

Filtres qui fonctionnent avec des règles clairement définies et facilement compréhensibles par les humains. Cette catégorie de filtres comprend Plage de dates, Nombre minimum de caractères, Longueur de la paire de phrases, Ratio de longueur, Non-traduisibles, Doublons, Proches doublons.
Basé sur l'apprentissage automatique

Filtres qui analysent le contenu du texte lui-même pour prendre une décision, plutôt que de simplement suivre un ensemble fixe de règles. Cette catégorie de filtres comprend Source et cible mal alignées, et Identification de la langue.

Plage de dates

Exclut les segments en dehors des dates définies. Les dates de début et de fin sont incluses avec la date de dernière modification d'un segment.

Source et cible mal alignées

Ce filtre détermine dans quelle mesure les segments correspondent en termes de signification et de similarité sémantique, en éliminant les moins bien notés. L'alignement des paires de phrases est mesuré à l'aide de la métrique LASER.

Un moteur d'IA est utilisé pour vérifier que le texte source et le texte cible signifient la même chose ou à quel point ils se ressemblent. Le paramètre recommandé ignore les 10 % des segments les moins bons tout en conservant les 90 % des meilleurs segments.

Les paramètres avancés permettent de modifier l'alignement ou peuvent être un filtre basé sur le score de similarité brute en utilisant un nombre entre 0 et 1 (1 signifiant un alignement complet). Il est conseillé de faire preuve de prudence si l'on utilise le score de similarité brute, car chaque paire de langues a une distribution de scores différente et ce qui est considéré comme un bon score pour une paire de langues peut être un score insatisfaisant pour une autre.

En général, les segments en dessous de 0,5 ne sont pas très bons et les segments proches ou supérieurs à 1 sont des segments identiques dans les deux langues.

Exemples:

La chaîne "Bonjour, le monde ! 1 2 3" a 19 caractères et 10 lettres.

Nombre minimum de caractères et de lettres

Nombre de caractères inclut tous les caractères. Cela inclut toutes les lettres, les espaces blancs, ainsi que la ponctuation et les symboles. À des fins de formation, il peut être utile d'ignorer les segments qui ne contiennent aucune lettre.

Nombre de lettres ne compte que les lettres telles que dans l'alphabet anglais, mais aussi des caractères plus complexes avec des diacritiques ou des caractères chinois. Un caractère chinois est compté comme une lettre, même s'il représente plus d'un caractère. Pour les langues basées sur les caractères, les valeurs par défaut sont 1, mais pour les langues basées sur les mots, les valeurs par défaut sont 4 (caractères) et 3 (lettres). La valeur minimale est 1 et la valeur maximale est 500.

Si vous conservez de nombreux segments courts dans les données (par exemple des acronymes), gardez les valeurs de filtre basses.

Exemple :

La chaîne "Bonjour, le monde ! 1 2 3" a 19 caractères et 10 lettres.

Longueur de la paire de phrases

Ce filtre supprime tous les segments qui sont plus longs que la valeur seuil définie par les utilisateurs.

Le nombre total de caractères inclut tous les caractères - lettres, espaces blancs et ponctuation - des phrases source et cible. Prenez en compte le type de langue (par exemple le chinois et l'anglais) ; si la langue source n'est pas de type CJK et que la langue cible est CJK (ou vice versa), ce filtre sera ignoré.

Rapport de longueur

Ce filtre identifie les segments dont la longueur est significativement plus élevée en comparant le segment source et le segment cible. Certaines traductions augmentent ou diminuent en longueur lors de la traduction d'une langue source à une langue cible. Des traductions trop longues ou trop courtes peuvent indiquer des segments de faible qualité.

Si la langue source n'est pas de type CJK et que la langue cible l'est (ou vice versa), ce filtre sera ignoré.CJK

Certaines langues sont plus verbeuses que d'autres, donc 200 % est un bon défaut. Si la langue cible est similaire à la langue source, ou si plus de données doivent être filtrées, la valeur peut être plus basse.

Exemples:

Une langue est CJK - le rapport est de 1. Il ne sera pas rejeté :

{"source": "Ceci est une phrase.", "target": "这是一个句子。", "ratio": 1}

La traduction allemande est de longueur comparable à la source anglaise et ne sera pas rejetée :

{"source": "Ceci est une phrase.", "target": "Dies ist ein Satz.", "ratio": 1.1}

La traduction allemande est beaucoup plus longue que la source anglaise et sera rejetée :

{"source": "Ceci est une phrase.", "target": "Ceci est une phrase avec des remplissages supplémentaires inutiles.", "ratio": 3.1}

Éléments non traduisibles

Les éléments non traduisibles sont des segments où les segments source et cible sont identiques. Exclut tous les paires de phrases non traduisibles où le texte cible reste inchangé par rapport au texte source.

Doublons

Des groupes de segments sont créés qui ont la même phrase source. Dans chaque groupe, seul le meilleur segment est conservé, donc si la phrase source d'un segment est unique, elle est automatiquement conservée. Sinon, le segment avec le score de similarité le plus élevé est conservé.

Proches doublons

Lors de la vérification des proches doublons, une phrase source (légèrement plus propre) est normalisée ; tous les caractères non alphabétiques (quelques exemples : “,?)!-) sont remplacés par un espace et toutes les lettres sont mises en minuscules.

En utilisant la phrase source normalisée, des groupes de segments ayant la même phrase source normalisée sont créés. Dans chaque groupe, seul le meilleur segment est conservé, donc la phrase source normalisée d'un segment est unique et est automatiquement conservée. Sinon, le segment avec le score de similarité le plus élevé est conservé.

Identification de la langue

Un moteur d'IA est utilisé pour identifier la langue source et cible en fonction des phrases. Un segment n'est supprimé que si le moteur reconnaît une langue (source/cible) (par exemple, des phrases plus courtes ne suffisent souvent pas pour que le moteur détermine une langue) et que la langue est différente de celle attendue.

QPS

Le filtre QPS permet de retirer les paires de phrases de la mémoire de traduction de la plus basse qualité afin de garantir que les segments résultants soient de la plus haute qualité.

Le filtre QPS peut être configuré de deux manières :

Retirer un pourcentage spécifié de paires de phrases avec les scores QPS les plus bas. La recommandation est de 10 %.
Sélection d'un seuil de score. Utilisez les paramètres avancés pour éliminer les paires de phrases tombant en dessous d'un seuil QPS ajustable. Le point de départ recommandé est 50.

Ces deux options offrent une curation automatisée de la mémoire de traduction pour s'aligner sur les objectifs de qualité des utilisateurs.

Utilisation des MTs curés dans les TMS

Le processus de nettoyage de la mémoire de traduction, qui peut prendre plusieurs heures, doit être terminé avant qu'un MT curé puisse être utilisé.

Pour utiliser un MT curé dans les TMS, suivez ces étapes :

Cliquez sur le et sélectionnez télécharger .

La fenêtre de téléchargement s'ouvre.
Sélectionnez Télécharger (.tmx).

Cela déclenchera un processus d'exportation de jeu de données qui ne prendra que quelques minutes. Le MT curé résultant au format .TMX peut ensuite être téléchargé dans les TMS en tant que nouveau MT curé d'une taille allant jusqu'à 1 Go.

Si deux ou plusieurs processus de nettoyage ont été effectués sur la même MT, différentes versions peuvent être accessibles dans l'onglet Historique de nettoyage.