Custom AI

Filtres de nettoyage

Le contenu est traduit de l’anglais par Phrase Language AI.

Les aspects les plus importants de la formation des moteurs MT ne sont pas seulement le volume, mais la qualité des données. Le nettoyage des données est un problème omniprésent et le nettoyage manuel est laborieux. Des données propres conduisent à un entraînement plus rapide et à des modèles de meilleure qualité.

La phrase personnalisée IA adapte les mémoires de traduction en ensembles de données avec l'aide de filtres de nettoyage basés sur l'IA et des règles. Les paramètres par défaut fournis devraient convenir aux nouveaux utilisateurs.

L'ensemble des filtres disponibles comprend à la fois des filtres basés sur des règles et des filtres basés sur l'apprentissage automatique :

  • Basé sur des règles

    Filtres qui fonctionnent avec des règles clairement définies et facilement compréhensibles par les humains. Cette catégorie de filtres comprend Plage de dates, Nombre minimum de caractères, Longueur des paires de phrases, Ratio de longueur, Non traduisibles, Doublons, Près de doublons.

  • Basé sur l'apprentissage automatique

    Filtres qui analysent le contenu du texte lui-même pour prendre une décision, plutôt que de suivre simplement un ensemble fixe de règles. Cette catégorie de filtres comprend Source et cible mal alignées, et Identification de la langue.

Tous les filtres évaluent sur des versions nettoyées des segments ; entre autres choses, les espaces multiples sont réduits à un et les tags de Phrase sont supprimés.

Plage de dates

Exclut les segments en dehors des dates définies. Les dates de début et de fin sont incluses avec la date de dernière modification d'un segment.

Source et cible mal alignées

Ce filtre détermine à quel point les segments correspondent en termes de signification et de similarité sémantique, en supprimant les moins bien notés. L'alignement des paires de phrases est mesuré à l'aide de la métrique LASER.

Un moteur IA est utilisé pour vérifier que le texte source et le texte cible signifient la même chose ou à quel point ils se ressemblent. Le paramètre recommandé ignore les 10 % des segments les moins bons tout en conservant les 90 % des meilleurs segments.

Les paramètres avancés permettent de modifier l'alignement ou peuvent être un filtre basé sur le score de similarité brute en utilisant un nombre entre 0 et 1 (1 signifiant un alignement complet). Une prudence est conseillée si l'on utilise le score de similarité brute, car chaque paire de langues a une distribution de scores différente et ce qui est considéré comme un bon score pour une paire de langues peut être un score insatisfaisant pour une autre.

Typiquement, les segments en dessous de 0,5 ne sont pas très bons et les segments proches ou supérieurs à 1 sont des segments identiques dans les deux langues.

Exemples :

{"source": "Super.", "target": "Super.", "similarity": 1.05}

{"source": "Bonjour", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}

Nombre minimum de caractères et de lettres

Nombre de caractères inclut tous les caractères. Cela inclut toutes les lettres, les espaces blancs, ainsi que la ponctuation et les symboles. À des fins de formation, il peut être utile d'ignorer les segments qui ne contiennent aucune lettre.

Nombre de lettres ne compte que les lettres telles que dans l'alphabet anglais, mais aussi des caractères plus complexes avec des diacritiques ou des caractères chinois. Un caractère chinois est compté comme une lettre, même s'il représente plus d'un caractère. Pour les langues basées sur les caractères, les valeurs par défaut sont 1, mais pour les langues basées sur les mots, les valeurs par défaut sont 4 (caractères) et 3 (lettres). La valeur minimale est 1 et la valeur maximale est 500.

Si vous conservez beaucoup de segments courts dans les données (par exemple des acronymes), gardez les valeurs de filtre basses.

Exemple :

La chaîne "Bonjour, le monde ! 1 2 3" a 19 caractères et 10 lettres.

Paire de phrases de longueur

Ce filtre supprime tous les segments qui sont plus longs que la valeur seuil définie par les utilisateurs. La raison de ce filtre est que la plupart des systèmes NMT ne s'entraînent pas réellement sur des segments qui sont plus longs que leur seuil interne. 

Par exemple, le seuil interne de NextMT est de 200 tokens, ce qui équivaut à environ 100 - 1 000 mots. Pour entraîner un moteur personnalisé sur des phrases plus courtes, définissez cette valeur en dessous de la valeur par défaut.

Le nombre total de caractères inclut tous les caractères - lettres, espaces blancs et ponctuation - des phrases source et cible. Prenez en compte le type de langue (par exemple, le chinois et l'anglais) ; si la langue source n'est pas de type CJK et que la langue cible est CJK (ou vice versa), ce filtre sera ignoré.

Rapport de longueur

Ce filtre identifie les segments où la longueur est significativement plus élevée en comparant le segment source et le segment cible. Certaines traductions augmentent ou diminuent en longueur lors de la traduction d'une langue source à une langue cible. Des traductions trop longues ou trop courtes peuvent indiquer des données d'entraînement de faible qualité.

Si la langue source n'est pas de type CJK et que la langue cible l'est (ou vice versa), ce filtre sera ignoré.CJK

Certaines langues sont plus verbeuses que d'autres, donc 200 % est une bonne valeur par défaut. Si la langue cible est similaire à la langue source, ou si plus de données doivent être filtrées, la valeur peut être inférieure.

Exemples :

Une langue est CJK - le rapport est de 1. Il ne sera pas rejeté :

{"source": "Ceci est une phrase.", "target": "这是一个句子。", "ratio": 1}

La traduction allemande est de longueur comparable à la source anglaise et ne sera pas rejetée :

{"source": "Ceci est une phrase.", "target": "Dies ist ein Satz.", "ratio": 1.1}

La traduction allemande est beaucoup plus longue que la source anglaise et sera rejetée :

{"source": "Ceci est une phrase.", "target": "Ceci est une phrase avec des remplissages supplémentaires inutiles.", "ratio": 3.1}

Éléments non traduisibles

Les éléments non traduisibles sont des segments où les segments source et cible sont identiques. Exclut tous les paires de phrases non traduisibles où le texte cible reste inchangé par rapport au texte source.

Doublons

Des groupes de segments sont créés qui ont la même phrase source. Dans chaque groupe, seul le meilleur segment est conservé, donc si la phrase source d'un segment est unique, elle est automatiquement conservée. Sinon, le segment avec le score de similarité le plus élevé est conservé.

Quasi-doublons

Lors de la vérification des quasi-doublons, la (version légèrement plus propre de) la phrase source est normalisée ; tous les caractères non alphabétiques (quelques exemples : “,?)!-) sont remplacés par un espace et toutes les lettres sont mises en minuscules.

En utilisant la phrase source normalisée, des groupes de segments ayant la même phrase source normalisée sont créés. Dans chaque groupe, seul le meilleur segment est conservé, donc la phrase source normalisée d'un segment est unique et est automatiquement conservée. Sinon, le segment avec le score de similarité le plus élevé est conservé.

Identification de la langue

Un moteur d'IA est utilisé pour identifier la langue source et cible en fonction des phrases. Un segment n'est supprimé que si le moteur reconnaît une langue (source/cible) (par exemple, des phrases plus courtes ne suffisent souvent pas pour que le moteur détermine une langue) et que la langue est différente de celle attendue.

QPS

Le filtre QPS supprime les paires de phrases de la plus basse qualité dans l'ensemble de données pour garantir que les modèles d'IA résultants sont formés sur les données de la plus haute qualité disponible. En général, plus la qualité des données d'entraînement est élevée, mieux le modèle personnalisé fonctionne.

Le filtre QPS peut être configuré de deux manières :

  1. Suppression d'un pourcentage spécifié de paires de phrases ayant les scores QPS les plus bas. La recommandation est de 10 %.

  2. Sélection d'un seuil de score. Utilisez les paramètres avancés pour éliminer les paires de phrases en dessous d'un seuil QPS ajustable. Le point de départ recommandé est 50.

Ces deux options offrent une curation automatisée des ensembles de données pour s'aligner sur les objectifs de qualité des utilisateurs.

Cet article vous a-t-il été utile ?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.