La conservation des mémoires de traduction est un problème omniprésent de longue date et le nettoyage manuel est un processus laborieux. Des mémoires de traduction propres conduisent à de meilleures références pour les linguistes et à une traduction automatique de meilleure qualité, ce qui est particulièrement pertinent pour Phrase NextMT, compte tenu de ses capacités avancées pour exploiter les ressources langues, telles que les mémoires de traduction et les glossaires.
Pour créer un jeu de données dans le but d’utiliser une MT traitée dans TMS, procédez comme suit :
-
Dans la page Jeux de données, cliquez sur Nettoyer une mémoire de traduction.
La page
de données s'ouvre. -
Donnez un nom au jeu de données.
-
Les sélecteurs de langues permettent diverses options :
-
Pour créer un jeu de données langue général, sélectionnez les mêmes langues source et cible dans les sélecteurs langue source et langue cible et paramètres régionaux.
-
Pour créer un jeu de données spécifique aux paramètres régionaux, sélectionnez les langues source et cible dans la première liste déroulante puis spécifiez les paramètres régionaux source et cible dans la deuxième liste déroulante.
Plusieurs paramètres régionaux cibles pour exploiter davantage de sources de données peuvent également être ajoutés.
-
Pour créer un jeu de données avec plusieurs paramètres régionaux source et cible, sélectionnez les langues source et cible dans la première liste déroulante, spécifiez les paramètres régionaux source et cible dans la deuxième liste déroulante (plusieurs paramètres régionaux cibles peuvent être ajoutés) et cliquez sur + Ajouter d’autres paramètres régionaux.
La fenêtre
apparaît. -
-
Ajouter mémoires de traduction
La page
s'ouvre sur unede fonctionnalité de recherche.
-
Pour ajouter une MT au jeu de données, cliquez sur l'icône
. La MT est ajoutée à la colonne .
Plusieurs TMS peuvent être ajoutées à un maximum de 200 TMS et un maximum de 8 millions de segments. Un jeu de données doit idéalement contenir au moins 10 000 segments.
En cliquant sur le nom de la MT, la sélection apparaîtra sur la page mémoire de traduction.
Cliquez sur l'icône
pour retirer la MT de la colonne .
-
Cliquez sur Enregistrer.
La page
de données s'ouvre. -
Examinez les détails présentés et, s ' ils sont exacts, cliquez sur Continuer.
La page des
s'ouvre. -
Appliquez les filtres requis et cliquez sur Créer .
Le jeu de données est créé et ajouté à la liste de la page des
avec le statut initial de et le statut de dans la colonne .
Phrase Custom AI permet de conserver les mémoires de traduction à l’Aide de filtres de nettoyage basés sur l’IA et des règles. Les paramètres par défaut peuvent convenir aux nouveaux utilisateurs.
Ce processus préserve les métadonnées des segments MT et les balises MT d'origine, ce qui permet aux utilisateurs de conserver un effet de levier MT lorsqu'ils utilisent les TMS nettoyées dans TMS.
L'ensemble de filtres disponibles comprend à la fois des filtres basés sur des règles et des filtres basés sur des ML :
-
basé sur des règles
Des filtres qui fonctionnent avec des règles clairement définies et facilement compréhensibles par les humains. Cette catégorie de filtre comprend
, , de phrases, , , , . -
basé sur ML
Les filtres qui analysent le contenu du texte lui-même pour prendre une décision, plutôt que de simplement suivre un ensemble de règles fixes. Cette catégorie filtre comprend les
mal alignées et l ' .
Plage de dates
La date de fin et de début est incluse avec la date de dernière modification d'un segment prise en compte.
Source et cible mal alignées
Ce filtre permet aux utilisateurs de déterminer la bonne correspondance des segments en termes de signification et de similarité sémantique, en retirant les moins bien notés . L'alignement des paires de phrases est mesuré à l'aide de la métrique LASER.
Un moteur IA est utilisé pour vérifier que le texte source et le texte cible signifient la même chose ou à quel point la même chose. Le paramètre recommandé écarte les 10 % plus mauvais segments tout en conservant les 90 % meilleurs segments.
Les paramètres avancés permettent de modifier l'alignement ou peuvent être un filtre basé sur le score brut de similarité à l'aide d'un nombre entre 0 et 1 (1 signifiant alignement Terminé). La prudence est recommandée si l'utilisation du score brut de similarité car chaque paire de langues a une distribution différente des scores et ce qui est considéré comme un bon score pour une paire de langues peut être un score insatisfaisant pour une autre.
Typiquement, les segments inférieurs à 0,5 ne sont pas très bons et les segments proches ou supérieurs à 1 sont des segments qui sont les mêmes dans les deux langues.
Exemples :
Caractères minimaux et nombre de lettres
Le nombre de caractères comprend tous les caractères. Cela comprend toutes les lettres, les espaces blancs, la ponctuation et les symboles. À des fins de formation, il peut être utile d'ignorer les segments qui ne contiennent aucune lettre.
Le nombre de lettres ne compte que les lettres comme dans l'alphabet anglais, mais aussi les caractères plus complexes avec des diacritiques ou des caractères chinois. Un caractère chinois est compté comme une lettre, même s'il représente plusieurs caractères. Pour les langues basées sur des caractères, les valeurs par défaut sont 1, mais pour les langues basées sur des mots, les valeurs par défaut sont 4 (caractères) et 3 (lettres). La valeur minimale est 1 et la valeur maximale est 500.
Si vous conservez beaucoup de segments courts dans les données (par exemple des acronymes), gardez les valeurs filtrées faibles.
Exemple :
La chaîne "Bonjour, Monde ! 1 2 3"
comporte 19 caractères et 10 lettres.
Longueur de la paire de phrases
Ce filtre supprime tous les segments dont la longueur est supérieure à la valeur de seuil définie par les utilisateurs.
Le nombre total de caractères comprend tous les caractères - lettres, espaces blancs et ponctuation- des phrases source et cible. Prenez en considération le type de langue (par exemple le chinois et l'anglais); si la langue source n'est pas similaire au CJK et que la langue cible est le CJK (ou l'inverse), ce filtre sera ignoré.
Rapport de longueur
Ce filtre identifie les segments dont la longueur est significativement plus élevée lors de la comparaison du segment source et du segment cible. Certaines traductions augmentent ou diminuent en longueur lors de la traduction d'une langue source vers une langue cible. Des traductions trop longues ou trop courtes peuvent indiquer des segments de mauvaise qualité.
Si la langue source ne ressemble pas au CJK et que la langue cible est (ou l'inverse), ce filtre sera ignoré.CJK
Certaines langues sont plus Verbose que d'autres, donc 200% est un bon défaut. Si la langue cible est similaire à la langue source ou si davantage de données doivent être filtrées, la valeur peut être plus faible.
Exemples :
Une langue est le CJK - le ratio est 1. Il ne sera pas ignoré :
{"source": "This is a sentence.", "target": "这是一个句子。", "ratio": 1}
La traduction allemande est de longueur comparable à la source anglaise et ne sera pas ignorée :
{"source": "C'est une phrase.", "cible" : "Dies ist ein Satz.", "ratio": 1.1}
La traduction allemande est beaucoup plus longue que la source anglaise et sera ignorée :
{"source": "C'est une phrase.", "cible" : "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}
Non traduisibles
Les non traduisibles sont des segments dont les segments source et cible sont les mêmes. Excluez toutes les paires de phrases à ne pas traduire dont le texte cible reste inchangé par rapport au texte source.
Doublons
On crée des groupes de segments qui ont la même phrase source. De chaque groupe, seul le meilleur segment est conservé. Si la phrase source d’un segment est unique, il est donc automatiquement conservé. Sinon. le segment avec le score de similarité le plus élevé est conservé.
Presque en double
Lors des tests de détection des quasi-doublons, la version (un peu plus propre) d'une phrase source est normalisée; tous les caractères autres que les lettres (quelques exemples: ",?)-
) sont remplacés par un Espace et toutes les lettres sont rendues minuscules.
En utilisant la phrase source normalisée, des groupes de segments qui ont la même phrase source normalisée sont créés. De chaque groupe, seul le meilleur segment est conservé afin que la phrase source normalisée d'un segment soit unique et soit automatiquement conservée. Sinon. le segment avec le score de similarité le plus élevé est conservé.
Identification de la langue
Un moteur IA est utilisé pour identifier la langue source et la langue cible en fonction des phrases. Un segment n'est supprimé que si le moteur reconnaît une langue (source/cible) (à titre d'exemple, des phrases plus courtes ne suffisent souvent pas pour que le moteur détermine une langue) et que la langue est différente de celle attendue.
QPS
Le filtre QPS permet de retirer les paires de phrases de moindre qualité dans la mémoire de traduction pour s'assurer que les segments résultants sont de la plus haute qualité.
Le filtre QPS peut être configuré de deux manières :
-
Retrait d'un pourcentage spécifié de paires de phrases avec les scores QPS les plus faibles. La recommandation est de 10 %.
-
Sélection d'un seuil de score. Utilisez les paramètres avancés pour éliminer les paires de phrases tombant sous un seuil QPS ajustable. Le point de départ recommandé est 50.
Ces deux options offrent une curation mémoire de traduction automatisée pour s’aligner sur les objectifs de qualité des utilisateurs.
Le processus de nettoyage de la mémoire de traduction, qui peut prendre plusieurs heures, doit être Terminé avant de pouvoir utiliser une MT soignée.
Pour utiliser une MT soignée dans TMS, procédez comme suit :
Cela déclenchera un processus exporté jeu de données qui ne prendra que quelques minutes. La MT soignée au format .TMX qui en résulte peut ensuite être téléversée sur TMS comme nouvelle MT soignée d'une taille maximale de 1 Gb.
Si deux processus de nettoyage ou plus ont été effectués sur la même MT, l'onglet
permet d'accéder à différentes versions.