La curation des mémoires de traduction est un problème persistant et le nettoyage manuel est un processus laborieux. Des mémoires de traduction propres conduisent à de meilleures références pour les linguistes et à une qualité de traduction automatique supérieure, ce qui est particulièrement pertinent pour Phrase NextMT, compte tenu de ses capacités avancées à tirer parti des actifs linguistiques, tels que les mémoires de traduction et les glossaires.
Pour créer un ensemble de données dans le but d'utiliser une MT curée dans un TMS, suivez ces étapes :
-
Sur la page Ensembles de données, cliquez sur Nettoyer une mémoire de traduction.
La page s'ouvre.
-
Fournissez un nom pour l'ensemble de données.
-
Les sélecteurs de langue permettent diverses options :
-
Pour créer un ensemble de données linguistique général, sélectionnez les mêmes langues source et cible dans les sélecteurs de langue source et cible et de paramètre linguistique.
-
Pour créer un ensemble de données spécifique à un paramètre linguistique, sélectionnez les langues source et cible dans la première liste déroulante, puis spécifiez les paramètres linguistiques source et cible dans la deuxième liste déroulante.
Plusieurs paramètres linguistiques cibles (c'est-à-dire différentes variantes de la même langue) pour tirer parti de plus de sources de données peuvent également être ajoutés.
-
Pour créer un ensemble de données avec plusieurs paramètres linguistiques source et cible, sélectionnez les langues source et cible dans la première liste déroulante, spécifiez les paramètres linguistiques source et cible dans la deuxième liste déroulante (différentes variantes de la même langue cible peuvent être ajoutées) et cliquez sur + Ajouter plus de paires de paramètres linguistiques.
La fenêtre apparaît.
-
-
Cliquez sur Ajouter des mémoires de traduction.
La page s'ouvre avec une fonctionnalité de recherche
.
-
Pour ajouter une MT à l'ensemble de données, cliquez sur l'icône
. La MT est ajoutée à la colonne .
Plusieurs MT peuvent être ajoutées jusqu'à un maximum de 200 MT et un maximum de 8 millions de segments. Un ensemble de données devrait idéalement contenir au moins 10 000 segments.
Cliquer sur le nom du TM affichera la sélection sur la page de mémoire de traduction.
Cliquez sur l'icône
pour retirer le TM de la colonne .
-
Cliquez Enregistrer.
La page s'ouvre.
-
Vérifiez les détails tels que présentés et si correct, cliquez Continuer.
La page s'ouvre.
-
Appliquez les filtres requis et cliquez Créer.
Le jeu de données est créé et ajouté à la liste sur la avec le statut initial de et le statut de dans la colonne .
Phrase AI personnalisée permet de créer des mémoires de traduction avec l'aide de filtres de nettoyage basés sur l'IA et des règles. Des paramètres par défaut sont fournis qui peuvent convenir aux nouveaux utilisateurs.
Ce processus préserve les métadonnées de segment TM d'origine et les tags TM qui permettent aux utilisateurs de maintenir l'exploitation du TM lors de l'utilisation des TMs nettoyés dans le TMS.
L'ensemble des filtres disponibles comprend à la fois des filtres basés sur des règles et des filtres basés sur l'apprentissage automatique :
-
Basé sur des règles
Filtres qui fonctionnent avec des règles clairement définies et facilement compréhensibles par les humains. Cette catégorie de filtres comprend , , , , , , .
-
Basé sur l'apprentissage automatique
Filtres qui analysent le contenu du texte lui-même pour prendre une décision, plutôt que de simplement suivre un ensemble fixe de règles. Cette catégorie de filtres comprend , et .
Plage de dates
Exclut les segments en dehors des dates définies. Les dates de début et de fin sont incluses avec la date de dernière modification d'un segment.
Source et cible mal alignées
Ce filtre détermine dans quelle mesure les segments correspondent en termes de signification et de similarité sémantique, en éliminant les moins bien notés. L'alignement des paires de phrases est mesuré à l'aide de la métrique LASER.
Un moteur d'IA est utilisé pour vérifier que le texte source et le texte cible signifient la même chose ou à quel point ils se ressemblent. Le paramètre recommandé ignore les 10 % des segments les moins bons tout en conservant les 90 % des meilleurs segments.
Les paramètres avancés permettent de modifier l'alignement ou peuvent être un filtre basé sur le score de similarité brute en utilisant un nombre entre 0 et 1 (1 signifiant un alignement complet). Il est conseillé de faire preuve de prudence si l'on utilise le score de similarité brute, car chaque paire de langues a une distribution de scores différente et ce qui est considéré comme un bon score pour une paire de langues peut être un score insatisfaisant pour une autre.
En général, les segments en dessous de 0,5 ne sont pas très bons et les segments proches ou supérieurs à 1 sont des segments identiques dans les deux langues.
Exemples:
Nombre minimum de caractères et de lettres
Nombre de caractères inclut tous les caractères. Cela inclut toutes les lettres, les espaces blancs, ainsi que la ponctuation et les symboles. À des fins de formation, il peut être utile d'ignorer les segments qui ne contiennent aucune lettre.
Nombre de lettres ne compte que les lettres telles que dans l'alphabet anglais, mais aussi des caractères plus complexes avec des diacritiques ou des caractères chinois. Un caractère chinois est compté comme une lettre, même s'il représente plus d'un caractère. Pour les langues basées sur les caractères, les valeurs par défaut sont 1, mais pour les langues basées sur les mots, les valeurs par défaut sont 4 (caractères) et 3 (lettres). La valeur minimale est 1 et la valeur maximale est 500.
Si vous conservez de nombreux segments courts dans les données (par exemple des acronymes), gardez les valeurs de filtre basses.
Exemple :
La chaîne "Bonjour, le monde ! 1 2 3" a 19 caractères et 10 lettres.
Longueur de la paire de phrases
Ce filtre supprime tous les segments qui sont plus longs que la valeur seuil définie par les utilisateurs.
Le nombre total de caractères inclut tous les caractères - lettres, espaces blancs et ponctuation - des phrases source et cible. Prenez en compte le type de langue (par exemple le chinois et l'anglais) ; si la langue source n'est pas de type CJK et que la langue cible est CJK (ou vice versa), ce filtre sera ignoré.
Rapport de longueur
Ce filtre identifie les segments dont la longueur est significativement plus élevée en comparant le segment source et le segment cible. Certaines traductions augmentent ou diminuent en longueur lors de la traduction d'une langue source à une langue cible. Des traductions trop longues ou trop courtes peuvent indiquer des segments de faible qualité.
Si la langue source n'est pas de type CJK et que la langue cible l'est (ou vice versa), ce filtre sera ignoré.CJK
Certaines langues sont plus verbeuses que d'autres, donc 200 % est un bon défaut. Si la langue cible est similaire à la langue source, ou si plus de données doivent être filtrées, la valeur peut être plus basse.
Exemples:
Une langue est CJK - le rapport est de 1. Il ne sera pas rejeté :
{"source": "Ceci est une phrase.", "target": "这是一个句子。", "ratio": 1}
La traduction allemande est de longueur comparable à la source anglaise et ne sera pas rejetée :
{"source": "Ceci est une phrase.", "target": "Dies ist ein Satz.", "ratio": 1.1}
La traduction allemande est beaucoup plus longue que la source anglaise et sera rejetée :
{"source": "Ceci est une phrase.", "target": "Ceci est une phrase avec des remplissages supplémentaires inutiles.", "ratio": 3.1}
Éléments non traduisibles
Les éléments non traduisibles sont des segments où les segments source et cible sont identiques. Exclut tous les paires de phrases non traduisibles où le texte cible reste inchangé par rapport au texte source.
Doublons
Des groupes de segments sont créés qui ont la même phrase source. Dans chaque groupe, seul le meilleur segment est conservé, donc si la phrase source d'un segment est unique, elle est automatiquement conservée. Sinon, le segment avec le score de similarité le plus élevé est conservé.
Proches doublons
Lors de la vérification des proches doublons, une phrase source (légèrement plus propre) est normalisée ; tous les caractères non alphabétiques (quelques exemples : “,?)!-) sont remplacés par un espace et toutes les lettres sont mises en minuscules.
En utilisant la phrase source normalisée, des groupes de segments ayant la même phrase source normalisée sont créés. Dans chaque groupe, seul le meilleur segment est conservé, donc la phrase source normalisée d'un segment est unique et est automatiquement conservée. Sinon, le segment avec le score de similarité le plus élevé est conservé.
Identification de la langue
Un moteur d'IA est utilisé pour identifier la langue source et cible en fonction des phrases. Un segment n'est supprimé que si le moteur reconnaît une langue (source/cible) (par exemple, des phrases plus courtes ne suffisent souvent pas pour que le moteur détermine une langue) et que la langue est différente de celle attendue.
QPS
Le filtre QPS permet de retirer les paires de phrases de la mémoire de traduction de la plus basse qualité afin de garantir que les segments résultants soient de la plus haute qualité.
Le filtre QPS peut être configuré de deux manières :
-
Retirer un pourcentage spécifié de paires de phrases avec les scores QPS les plus bas. La recommandation est de 10 %.
-
Sélection d'un seuil de score. Utilisez les paramètres avancés pour éliminer les paires de phrases tombant en dessous d'un seuil QPS ajustable. Le point de départ recommandé est 50.
Ces deux options offrent une curation automatisée de la mémoire de traduction pour s'aligner sur les objectifs de qualité des utilisateurs.
Le processus de nettoyage de la mémoire de traduction, qui peut prendre plusieurs heures, doit être terminé avant qu'un MT curé puisse être utilisé.
Pour utiliser un MT curé dans les TMS, suivez ces étapes :
Cela déclenchera un processus d'exportation de jeu de données qui ne prendra que quelques minutes. Le MT curé résultant au format .TMX peut ensuite être téléchargé dans les TMS en tant que nouveau MT curé d'une taille allant jusqu'à 1 Go.
Si deux ou plusieurs processus de nettoyage ont été effectués sur la même MT, différentes versions peuvent être accessibles dans l'onglet .