Custom AI

Automated Asset Curation

Le contenu est traduit de l’anglais par Phrase Language AI.

La conservation des mémoires de traduction est un problème omniprésent de longue date et le nettoyage manuel est un processus laborieux. Des mémoires de traduction propres conduisent à de meilleures références pour les linguistes et à une traduction automatique de meilleure qualité, ce qui est particulièrement pertinent pour Phrase NextMT, compte tenu de ses capacités avancées pour exploiter les ressources langues, telles que les mémoires de traduction et les glossaires.

Créer un jeu de données pour l’AAC

Pour créer un jeu de données dans le but d’utiliser une MT traitée dans TMS, procédez comme suit :

  1. Dans la page Jeux de données, cliquez sur Nettoyer une mémoire de traduction.

    La page Détails du jeu de données s'ouvre.

  2. Donnez un nom au jeu de données.

  3. Les sélecteurs de langues permettent diverses options :

    1. Pour créer un jeu de données langue général, sélectionnez les mêmes langues source et cible dans les sélecteurs langue source et langue cible et paramètres régionaux.

    2. Pour créer un jeu de données spécifique aux paramètres régionaux, sélectionnez les langues source et cible dans la première liste déroulante puis spécifiez les paramètres régionaux source et cible dans la deuxième liste déroulante.

      Plusieurs paramètres régionaux cibles pour exploiter davantage de sources de données peuvent également être ajoutés.

    3. Pour créer un jeu de données avec plusieurs paramètres régionaux source et cible, sélectionnez les langues source et cible dans la première liste déroulante, spécifiez les paramètres régionaux source et cible dans la deuxième liste déroulante (plusieurs paramètres régionaux cibles peuvent être ajoutés) et cliquez sur + Ajouter d’autres paramètres régionaux.

    La fenêtre Données de saisie apparaît.

  4. Ajouter mémoires de traduction

    La page Choisir mémoires de traduction s'ouvre sur une search.jpg de fonctionnalité de recherche.

  5. Pour ajouter une MT au jeu de données, cliquez sur l'icône AddTM.jpg . La MT est ajoutée à la colonne Sélectionnée.

    Plusieurs TMS peuvent être ajoutées à un maximum de 200 TMS et un maximum de 8 millions de segments. Un jeu de données doit idéalement contenir au moins 10 000 segments.

    En cliquant sur le nom de la MT, la sélection apparaîtra sur la page mémoire de traduction.

    Cliquez sur l'icône RemoveTM.jpg pour retirer la MT de la colonne Sélectionnée.

  6. Cliquez sur Enregistrer.

    La page Détails du jeu de données s'ouvre.

  7. Examinez les détails présentés et, s ' ils sont exacts, cliquez sur Continuer.

    La page des filtres de nettoyage s'ouvre.

  8. Appliquez les filtres requis et cliquez sur Créer .

    Le jeu de données est créé et ajouté à la liste de la page des jeux de données avec le statut initial de nettoyage et le statut de nettoyage MT dans la colonne Créé pour.

Filtres de nettoyage pour AAC

Phrase Custom AI permet de conserver les mémoires de traduction à l’Aide de filtres de nettoyage basés sur l’IA et des règles. Les paramètres par défaut peuvent convenir aux nouveaux utilisateurs.

Ce processus préserve les métadonnées des segments MT et les balises MT d'origine, ce qui permet aux utilisateurs de conserver un effet de levier MT lorsqu'ils utilisent les TMS nettoyées dans TMS.

L'ensemble de filtres disponibles comprend à la fois des filtres basés sur des règles et des filtres basés sur des ML :

  • basé sur des règles

    Des filtres qui fonctionnent avec des règles clairement définies et facilement compréhensibles par les humains. Cette catégorie de filtre comprend plage de dates, nombre minimal de caractères, longueur de paire de phrases, rapport de longueur, non traduisibles, doublons, quasi-doublons.

  • basé sur ML

    Les filtres qui analysent le contenu du texte lui-même pour prendre une décision, plutôt que de simplement suivre un ensemble de règles fixes. Cette catégorie filtre comprend les sources et cibles mal alignées et l ' identification langue.

Plage de dates

La date de fin et de début est incluse avec la date de dernière modification d'un segment prise en compte.

Source et cible mal alignées

Ce filtre permet aux utilisateurs de déterminer la bonne correspondance des segments en termes de signification et de similarité sémantique, en retirant les moins bien notés . L'alignement des paires de phrases est mesuré à l'aide de la métrique LASER.

Un moteur IA est utilisé pour vérifier que le texte source et le texte cible signifient la même chose ou à quel point la même chose. Le paramètre recommandé écarte les 10 % plus mauvais segments tout en conservant les 90 % meilleurs segments.

Les paramètres avancés permettent de modifier l'alignement ou peuvent être un filtre basé sur le score brut de similarité à l'aide d'un nombre entre 0 et 1 (1 signifiant alignement Terminé). La prudence est recommandée si l'utilisation du score brut de similarité car chaque paire de langues a une distribution différente des scores et ce qui est considéré comme un bon score pour une paire de langues peut être un score insatisfaisant pour une autre.

Typiquement, les segments inférieurs à 0,5 ne sont pas très bons et les segments proches ou supérieurs à 1 sont des segments qui sont les mêmes dans les deux langues.

Exemples :

La chaîne "Bonjour, Monde ! 1 2 3" comporte 19 caractères et 10 lettres.

Caractères minimaux et nombre de lettres

Le nombre de caractères comprend tous les caractères. Cela comprend toutes les lettres, les espaces blancs, la ponctuation et les symboles. À des fins de formation, il peut être utile d'ignorer les segments qui ne contiennent aucune lettre.

Le nombre de lettres ne compte que les lettres comme dans l'alphabet anglais, mais aussi les caractères plus complexes avec des diacritiques ou des caractères chinois. Un caractère chinois est compté comme une lettre, même s'il représente plusieurs caractères. Pour les langues basées sur des caractères, les valeurs par défaut sont 1, mais pour les langues basées sur des mots, les valeurs par défaut sont 4 (caractères) et 3 (lettres). La valeur minimale est 1 et la valeur maximale est 500.

Si vous conservez beaucoup de segments courts dans les données (par exemple des acronymes), gardez les valeurs filtrées faibles.

Exemple :

La chaîne "Bonjour, Monde ! 1 2 3" comporte 19 caractères et 10 lettres.

Longueur de la paire de phrases

Ce filtre supprime tous les segments dont la longueur est supérieure à la valeur de seuil définie par les utilisateurs.

Le nombre total de caractères comprend tous les caractères - lettres, espaces blancs et ponctuation- des phrases source et cible. Prenez en considération le type de langue (par exemple le chinois et l'anglais); si la langue source n'est pas similaire au CJK et que la langue cible est le CJK (ou l'inverse), ce filtre sera ignoré.

Rapport de longueur

Ce filtre identifie les segments dont la longueur est significativement plus élevée lors de la comparaison du segment source et du segment cible. Certaines traductions augmentent ou diminuent en longueur lors de la traduction d'une langue source vers une langue cible. Des traductions trop longues ou trop courtes peuvent indiquer des segments de mauvaise qualité.

Si la langue source ne ressemble pas au CJK et que la langue cible est (ou l'inverse), ce filtre sera ignoré.CJK

Certaines langues sont plus Verbose que d'autres, donc 200% est un bon défaut. Si la langue cible est similaire à la langue source ou si davantage de données doivent être filtrées, la valeur peut être plus faible.

Exemples :

Une langue est le CJK - le ratio est 1. Il ne sera pas ignoré :

{"source": "This is a sentence.", "target": "这是一个句子。", "ratio": 1}

La traduction allemande est de longueur comparable à la source anglaise et ne sera pas ignorée :

{"source": "C'est une phrase.", "cible" : "Dies ist ein Satz.", "ratio": 1.1}

La traduction allemande est beaucoup plus longue que la source anglaise et sera ignorée :

{"source": "C'est une phrase.", "cible" : "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}

Non traduisibles

Les non traduisibles sont des segments dont les segments source et cible sont les mêmes. Excluez toutes les paires de phrases à ne pas traduire dont le texte cible reste inchangé par rapport au texte source.

Doublons

On crée des groupes de segments qui ont la même phrase source. De chaque groupe, seul le meilleur segment est conservé. Si la phrase source d’un segment est unique, il est donc automatiquement conservé. Sinon. le segment avec le score de similarité le plus élevé est conservé.

Presque en double

Lors des tests de détection des quasi-doublons, la version (un peu plus propre) d'une phrase source est normalisée; tous les caractères autres que les lettres (quelques exemples: ",?)-) sont remplacés par un Espace et toutes les lettres sont rendues minuscules.

En utilisant la phrase source normalisée, des groupes de segments qui ont la même phrase source normalisée sont créés. De chaque groupe, seul le meilleur segment est conservé afin que la phrase source normalisée d'un segment soit unique et soit automatiquement conservée. Sinon. le segment avec le score de similarité le plus élevé est conservé.

Identification de la langue

Un moteur IA est utilisé pour identifier la langue source et la langue cible en fonction des phrases. Un segment n'est supprimé que si le moteur reconnaît une langue (source/cible) (à titre d'exemple, des phrases plus courtes ne suffisent souvent pas pour que le moteur détermine une langue) et que la langue est différente de celle attendue.

QPS

Le filtre QPS permet de retirer les paires de phrases de moindre qualité dans la mémoire de traduction pour s'assurer que les segments résultants sont de la plus haute qualité.

Le filtre QPS peut être configuré de deux manières :

  1. Retrait d'un pourcentage spécifié de paires de phrases avec les scores QPS les plus faibles. La recommandation est de 10 %.

  2. Sélection d'un seuil de score. Utilisez les paramètres avancés pour éliminer les paires de phrases tombant sous un seuil QPS ajustable. Le point de départ recommandé est 50.

Ces deux options offrent une curation mémoire de traduction automatisée pour s’aligner sur les objectifs de qualité des utilisateurs.

Utilisation de Curated TMS dans TMS

Le processus de nettoyage de la mémoire de traduction, qui peut prendre plusieurs heures, doit être Terminé avant de pouvoir utiliser une MT soignée.

Pour utiliser une MT soignée dans TMS, procédez comme suit :

  1. Cliquez sur le more.jpeg et sélectionnez télécharger download.jpg.

    La fenêtre Télécharger s'ouvre.

  2. Sélectionner Télécharger (.tmx).

Cela déclenchera un processus exporté jeu de données qui ne prendra que quelques minutes. La MT soignée au format .TMX qui en résulte peut ensuite être téléversée sur TMS comme nouvelle MT soignée d'une taille maximale de 1 Gb.

Si deux processus de nettoyage ou plus ont été effectués sur la même MT, l'onglet Historique de nettoyage permet d'accéder à différentes versions.

Cet article vous a-t-il été utile ?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.