Filtres de nettoyage

Le contenu est traduit de l’anglais par Phrase Language AI.

L'aspect le plus important de l'entraînement des moteurs de TA n'est pas seulement le volume, mais la qualité des données. Le nettoyage des données est un problème omniprésent et le nettoyage manuel est laborieux. Des données propres conduisent à un entraînement plus rapide et à des modèles de meilleure qualité.

Phrase Custom IA adapte les mémoires de traduction en jeux de données avec l'Aide de filtres de nettoyage basés sur des règles et propulsés par l'IA. Les paramètres par défaut fournis devraient convenir aux nouveaux utilisateurs.

L'ensemble des filtres disponibles comprend à la fois des filtres basés sur des règles et des filtres basés sur le ML :

Basé sur des règles

Filtres qui fonctionnent avec des règles clairement définies et facilement compréhensibles par les humains. Cette catégorie de filtre inclut Plage de dates, Nombre minimal de caractère, Longueur de la paire de phrases, Ratio de longueur, Non traduisibles, Doublons, Quasi-doublons.
Basé sur le ML

Filtres qui analysent le contenu du texte lui-même pour prendre une décision, plutôt que de simplement suivre un ensemble fixe de règles. Cette catégorie de filtre inclut Source et cible mal alignées et Identification de la langue.

Tous les filtres effectuent une évaluation sur des versions nettoyées des segments ; entre autres, les espaces multiples sont réduits à un seul et les tags Phrase sont supprimés.

Plage de dates

Exclut les segments en dehors des dates définies. Les dates de début et de fin sont incluses, ainsi que la date de dernière modification d'un segment.

Source et cible mal alignées

Ce filtre détermine dans quelle mesure les segments correspondent en termes de sens et de similarité sémantique, en supprimant les moins bien notés. L'alignement de la paire de phrases est mesuré à l'aide de la métrique LASER.

Un moteur d'IA est utilisé pour vérifier que le texte source et le texte cible signifient la même chose ou dans quelle mesure ils signifient la même chose. Le paramètre recommandé Ignorer les 10 % des pires segments tout en conservant les 90 % des meilleurs segments.

Les paramètres avancés permettent de modifier l'alignement ou peuvent être un filtre basé sur le score de similarité brut en utilisant un nombre compris entre 0 et 1 (1 signifiant un alignement Terminer). La prudence est conseillée si vous utilisez le score de similarité brut, car chaque paire de langues a une distribution de scores différente et ce qui est considéré comme un bon score pour une paire de langues peut être un score insatisfaisant pour une autre.

En général, les segments inférieurs à 0,5 ne sont pas très bons et les segments proches ou supérieurs à 1 sont des segments qui sont identiques dans les deux langues.

Exemples :

{"source": "Super.", "target": "Super.", "similarity": 1.05}

{"source": "Hello", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}

Nombre minimal de caractères et de lettres

Nombre de caractères inclut tous les caractères. Cela inclut toutes les lettres, les espaces, la ponctuation et les symboles. À des fins d'entraînement, il peut être utile d'Ignorer les segments qui ne contiennent aucune lettre.

Nombre de lettres compte uniquement les lettres telles que celles de l'alphabet anglais, mais aussi les caractères plus complexes avec des signes diacritiques ou les caractères chinois. Un caractère chinois est compté comme une lettre, même s'il représente plus d'un caractère. Pour les langues basées sur les caractères, les valeurs par défaut sont 1, mais pour les langues basées sur les mots, les valeurs par défaut sont 4 (caractères) et 3 (lettres). La valeur minimale est 1 et la valeur maximale est 500.

Si vous conservez beaucoup de segments courts dans les données (par exemple des acronymes), gardez les valeurs du filtre basses.

Exemple :

La chaîne \"Hello, World!" 1 2 3\" comporte 19 caractères et 10 lettres.

Longueur de la paire de phrases

Ce filtre supprime tous les segments qui sont plus longs que la valeur seuil définie par les utilisateurs. La raison de ce filtre est que la plupart des systèmes NMT ne s'entraîneront pas réellement sur des segments plus longs que leur seuil interne.

Par exemple, le seuil interne de NextMT est de 200 jetons, ce qui équivaut à environ 100 - 1 000 mots. Pour entraîner un moteur Personnalisé sur des phrases plus courtes, définissez cette valeur plus bas que la valeur par défaut.

Le nombre total de caractère inclut tous les caractères - lettres, espaces et ponctuation - provenant à la fois des phrases source et cible. Prenez en considération le type de langue (par exemple le chinois et l'anglais) ; si la langue source n'est pas de type CJK et que la langue cible est CJK (ou inversement), ce filtre sera ignoré.

Rapport de longueur

Ce filtre identifie les segments où la longueur est significativement plus élevée lors de la comparaison du segment source et du segment cible. Certaines traductions augmentent ou diminuent en longueur lors de la traduction d'une langue source vers une langue cible. Des traductions trop longues ou trop courtes peuvent indiquer des données d'entraînement de faible qualité.

Si la langue source n'est pas de type CJK et que la langue cible l'est (ou inversement), ce filtre sera ignoré.CJK

Certaines langues sont plus prolixes que d'autres, donc 200 % est une bonne valeur par défaut. Si la langue cible est similaire à la langue source, ou si davantage de données doivent être filtrées, la valeur peut être inférieure.

Exemples :

Une langue est CJK - le rapport est de 1. Il ne sera pas rejeté :

{"source": "This is a sentence.", "target": "这是一个句子。", "ratio": 1}

La traduction allemande est d'une longueur comparable à la source anglaise et ne sera pas rejetée :

{"source": "This is a sentence.", "target": "Dies ist ein Satz.", "ratio": 1.1}

La traduction allemande est beaucoup plus longue que la source anglaise et sera rejetée :

{"source": "This is a sentence.", "target": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}

Non-translatables

Les éléments à ne pas traduire sont des segment où la source et la cible sont identiques. Exclut toutes les paires de phrases à ne pas traduire où le texte cible reste inchangé par rapport au texte source.

Duplicates

Des groupes de segment sont créés avec la même source. De chaque groupe, seul le meilleur segment est conservé, donc si la source d'un segment est unique, il est automatiquement conservé. Sinon, le segment avec le score de similarité le plus élevé est conservé.

Near-duplicates

Lors du test des quasi-doublons, la (version légèrement plus propre d'une) source est normalisée ; tous les caractères non alphabétiques (quelques exemples : “,?)!-) sont remplacés par un Espace et toutes les lettres sont converties en minuscules.

En utilisant la source normalisée, des groupes de segment ayant la même source normalisée sont créés. De chaque groupe, seul le meilleur segment est conservé, ainsi si la source normalisée d'un segment est unique, il est automatiquement conservé. Sinon, le segment avec le score de similarité le plus élevé est conservé.

Identification de la langue

Un moteur IA est utilisé pour identifier la langue source et la langue cible en fonction des phrases. Un segment n'est supprimé que si le moteur reconnaît une langue (source/cible) (par exemple, des phrases plus courtes ne suffisent souvent pas au moteur pour déterminer une langue) et que la langue est différente de celle attendue.

QPS

Le filtre QPS supprime les paires de phrases de la plus faible qualité dans le jeu de données pour garantir que les modèles IA résultants sont entraînés sur les données de la plus haute qualité disponible. En général, plus la qualité des données d'entraînement est élevée, meilleures sont les performances du modèle personnalisé.

Le filtre QPS peut être configuré de deux manières :

Suppression d'un pourcentage spécifié de paires de phrases ayant les scores QPS les plus bas. La recommandation est de 10 %.
Sélection d'un seuil de score. Utiliser les paramètres avancés pour éliminer les paires de phrases tombant en dessous d'un seuil de QPS réglable. Le point de départ recommandé est 50.

Ces deux options permettent une curation automatisée des jeux de données pour s'aligner sur les objectifs de qualité des utilisateurs.