Les métriques d'évaluation automatisées jouent un rôle crucial dans l'évaluation de la qualité des traductions produites par les systèmes traduction automatique. Contrairement aux évaluations humaines, qui peuvent être subjectives et chronophages, les métriques automatisées fournissent un moyen rapide, objectif et répétitif de jauger la performance des systèmes TA.
Phrase Custom AI intègre plusieurs métriques automatisées bien établies pour évaluer la qualité de la traduction automatique : BLEU, TER, chrf3 et COMET.
Il est conseillé de déployer des systèmes personnalisés dans un environnement de production si les deux conditions suivantes sont remplies :
-
Amélioration BLEU d'au moins 5 points (absolue, par exemple 40 vs 35), ou amélioration chrf d'au moins 4 points.
-
Aucune diminution significative du score COMET.
Dans la plupart des cas, des améliorations de cette ampleur sont facilement perceptibles pour les traducteurs humains et conduisent à des temps de post-édition améliorés.
Approche recommandée
En général, les valeurs absolues des métriques varient en fonction de la paire de langues, du domaine et d'autres facteurs. Pour évaluer le succès du processus de personnalisation, examinez la différence entre les scores du système générique et personnalisé.
BLEU, chrf et TER mesurent tous le chevauchement des chaînes entre les sorties TA et les traductions de référence. Par définition, une amélioration significative de ces scores implique moins de travail post-édition pour les traducteurs.
COMET mesure la qualité de la traduction dans un sens général. COMET n’augmentera pas nécessairement après la personnalisation (le système personnalisé peut sortie des traductions de qualité similaire, la différence réside dans la correspondance des traductions avec le style du client, le ton, la terminologie, etc.). Cependant, une diminution significative de COMET peut signaler un problème avec le système personnalisé.
Metriques disponibles
Phrase Custom AI intègre plusieurs métriques automatisées bien établies pour évaluer la qualité de la traduction automatique : BLEU, TER, chrf3 et COMET. Chacune de ces métriques offre une approche unique pour évaluer la qualité de la traduction, prenant en compte différents aspects de la traduction.
COMET (métrique optimisée pour l’évaluation de la traduction en plusieurs langues)
-
Aperçu
COMET est une métrique plus récente qui utilise des modèles d'apprentissage machine pour évaluer les traductions. Contrairement aux métriques traditionnelles, elle ne repose pas uniquement sur des comparaisons de texte au niveau de la surface.
-
Mécanisme de travail
COMET utilise un modèle de réseau neuronal formé sur de larges jeux de données de jugements humains. Il évalue les traductions en prenant en compte divers aspects de la qualité de la traduction, notamment la fluidité, l’adéquation et la préservation du sens.
-
Cas d’usage
COMET est efficace dans les scénarios où une meilleure connaissance de la qualité de la traduction est nécessaire. Il est particulièrement utile pour évaluer des traductions où la précision contextuelle et sémantique est plus importante que la correspondance littérale mot à mot.
BLEU (Étude d'évaluation bilingue)
-
Aperçu
BLEU, l'une des métriques les plus anciennes et les plus utilisées, évalue la qualité des textes traduits automatiquement en les comparant à une ou plusieurs traductions de référence de haute qualité. BLEU mesure la correspondance des phrases entre le texte généré automatiquement et les textes de référence, en se concentrant sur la précision des correspondances de mots.
-
Mécanisme de travail
BLEU calcule la précision de n grammes pour différentes longueurs de n grammes (typiquement 1 à 4 mots), puis combine ces scores en utilisant une moyenne géométrique. Il intègre également une pénalité de concision pour régler le problème des traductions trop courtes.
-
Cas d’usage
BLEU est particulièrement efficace pour évaluer les traductions où la correspondance exacte des phrases et commande mot est importante. Cependant, sa dépendance aux correspondances exactes peut être une limite pour capturer la qualité des traductions plus fluides ou idiomatiques.
TER (traduction modifier taux)
-
Aperçu
TER est une métrique qui mesure le nombre de modifications nécessaires pour modifier un texte traduit automatiquement en traduction de référence. Il est basé sur le concept de distance modifier et comprend des opérations comme les insertions, les suppressions et les substitutions. Contrairement à d'autres métriques de cette liste, un score TER inférieur signifie une meilleure traduction.
-
Mécanisme de travail
TER calcule le nombre minimal d'éditions nécessaires pour transformer la traduction automatique en l'une des traductions de référence. Le score est ensuite normalisé par le nombre total de mots de la traduction de référence.
-
Cas d’usage
TER est utile pour évaluer les traductions où l'accent est mis sur la quantité de travail post-édition nécessaire. Cela est particulièrement pertinent dans les scénarios où les traductions seront post-éditées par des humains.
chrf3 (caractère n-gramme score F)
-
Aperçu
chrf3, ou score F de n-grammes de caractères, est une métrique qui évalue les traductions en fonction de n-grammes au niveau des caractères. Il considère à la fois la précision et le rappel, fournissant un équilibre entre les deux.
-
Mécanisme de travail
chrf3 calcule le score F, une moyenne harmonique de précision et de rappel, en se basant sur le chevauchement de caractères n-grammes entre la traduction automatique et le texte de référence.
-
Cas d’usage
chrf3 est avantageux pour les langues où segmentation mot est difficile ou pour les langues morphologiquement riches. Il est également moins sensible à la commande mot que BLEU, ce qui le rend plus flexible dans l'évaluation des traductions avec des phrasés différents mais acceptables.
Score ranges
Les valeurs absolues des métriques varient significativement en fonction de la paire de langues, du domaine et d'autres facteurs. Il est donc difficile d'établir des lignes directrices générales pour l'interprétation des valeurs de score et les utilisateurs devraient avant tout décider en fonction des différences entre le système générique et le système personnalisé (évalué sur un jeu de données identique).
Ce tableau peut être considéré comme un point de départ utile pour interpréter les valeurs des métriques individuelles :
-
Les scores inférieurs au seuil de TA de mauvaise qualité peuvent être révélateurs de problèmes graves et de tels systèmes ne devraient généralement pas être déployés sans analyse supplémentaire.
-
Les scores qui dépassent le seuil de TA de haute qualité indiquent généralement un système très performant qui produit des traductions fluides et adéquates.
Métrique |
Plage |
Seuil de TA de mauvaise qualité |
Seuil de TA de haute qualité |
---|---|---|---|
COMET |
Typiquement 0 à 1 |
< 0.3 |
> 0.8 |
BLEU |
0 à 100 |
< 15 |
> 50 |
TER |
0 à 100, plus bas c'est mieux |
> 70 |
< 30 |
chrf3 |
0 à 100 |
< 20 |
> 60 |