Les métriques d'évaluation automatisées jouent un rôle crucial dans l'évaluation de la qualité des traductions produites par les systèmes de traduction automatique. Contrairement aux évaluations humaines, qui peuvent être subjectives et chronophages, les métriques automatisées fournissent un moyen rapide, objectif et répétable d'évaluer la performance des systèmes de MT.
Phrase Custom IA intègre plusieurs métriques automatisées bien établies pour évaluer la qualité de la traduction automatique : BLEU, TER, chrf3 et COMET.
Il est conseillé de déployer des systèmes personnalisés dans un environnement de production si les deux conditions suivantes sont remplies :
-
BLEU amélioration d'au moins 5 points (absolue, par exemple 40 contre 35), ou chrf amélioration d'au moins 4 points.
-
Aucune diminution significative du score COMET.
Dans la plupart des cas, des améliorations de cette ampleur sont facilement perceptibles pour les traducteurs humains et conduisent à des temps de post-édition améliorés.
Approche recommandée
En général, les valeurs absolues des métriques varient en fonction de la paire de langues, du domaine et d'autres facteurs. Pour évaluer le succès du processus de personnalisation, examinez la différence entre les scores du système générique et du système personnalisé.
BLEU, chrf et TER mesurent tous le chevauchement de chaînes entre les sorties de MT et les traductions de référence. Par définition, une amélioration significative de ces scores implique moins d'efforts de post-édition pour les traducteurs.
COMET mesure la qualité de la traduction de manière générale. COMET n'augmentera pas nécessairement après personnalisation (le système personnalisé peut produire des traductions de qualité similaire, la différence réside dans le fait que les traductions correspondent au style, au ton, à la terminologie, etc. du client). Cependant, une diminution significative de COMET peut signaler un problème avec le système personnalisé.
Métriques disponibles
Phrase Custom IA intègre plusieurs métriques automatisées bien établies pour évaluer la qualité de la traduction automatique : BLEU, TER, chrf3 et COMET. Chacune de ces métriques offre une approche unique pour évaluer la qualité de la traduction, répondant à différents aspects de la traduction.
COMET (Métrique Optimisée Cross-lingual pour l'Évaluation de la Traduction)
-
Aperçu
COMET est une métrique plus récente qui utilise des modèles d'apprentissage automatique pour évaluer les traductions. Contrairement aux métriques traditionnelles, elle ne repose pas uniquement sur des comparaisons de texte superficielles.
-
Mécanisme de fonctionnement
COMET utilise un modèle de réseau de neurones entraîné sur de grands ensembles de données de jugements humains. Elle évalue les traductions en tenant compte de divers aspects de la qualité de la traduction, y compris la fluidité, l'adéquation et la préservation du sens.
-
Cas d'utilisation
COMET est efficace dans les scénarios où une compréhension plus approfondie de la qualité de la traduction est requise. Elle est particulièrement utile pour évaluer les traductions où l'exactitude contextuelle et sémantique est plus importante que la correspondance littérale mot à mot.
BLEU (Évaluation Bilingue de l'Understudy)
-
Aperçu
BLEU, l'une des premières et des plus largement utilisées, évalue la qualité du texte traduit par machine en le comparant à une ou plusieurs traductions de référence de haute qualité. BLEU mesure la correspondance des phrases entre le texte généré par la machine et les textes de référence, en se concentrant sur la précision des correspondances de mots.
-
Mécanisme de fonctionnement
BLEU calcule la précision des n-grammes pour différentes longueurs de n-grammes (typiquement de 1 à 4 mots) et combine ensuite ces scores en utilisant une moyenne géométrique. Elle intègre également une pénalité de brièveté pour traiter le problème des traductions trop courtes.
-
Cas d'utilisation
BLEU est particulièrement efficace pour évaluer les traductions où la correspondance exacte des phrases et l'ordre des mots sont importants. Cependant, sa dépendance aux correspondances exactes peut être une limitation pour capturer la qualité des traductions plus fluides ou idiomatiques.
TER (Taux de Modification de Traduction)
-
Aperçu
TER est une métrique qui mesure le nombre de modifications nécessaires pour transformer un texte traduit par machine en une traduction de référence. Elle est basée sur le concept de distance d'édition et inclut des opérations telles que les insertions, les suppressions et les substitutions. Contrairement à d'autres métriques de cette liste, un score TER plus bas signifie une meilleure traduction.
-
Mécanisme de fonctionnement
Le TER calcule le nombre minimum de modifications nécessaires pour transformer la traduction automatique en l'une des traductions de référence. Le score est ensuite normalisé par le nombre total de mots dans la traduction de référence.
-
Cas d'utilisation
Le TER est utile pour évaluer les traductions où l'accent est mis sur la quantité de travail de post-édition requis. Il est particulièrement pertinent dans les scénarios où les traductions seront post-éditées par des humains.
chrf3 (F-score des n-grammes de caractères)
-
Aperçu
chrf3, ou F-score des n-grammes de caractères, est une métrique qui évalue les traductions sur la base des n-grammes au niveau des caractères. Elle prend en compte à la fois la précision et le rappel, fournissant un équilibre entre les deux.
-
Mécanisme de fonctionnement
chrf3 calcule le F-score, une moyenne harmonique de la précision et du rappel, basée sur le chevauchement des n-grammes de caractères entre la traduction automatique et le texte de référence.
-
Cas d'utilisation
chrf3 est avantageux pour les langues où la segmentation des mots est difficile ou pour les langues morphologiquement riches. Il est également moins sensible à l'ordre des mots que le BLEU, ce qui le rend plus flexible pour évaluer les traductions avec des formulations différentes mais acceptables.
Plages de scores
Les valeurs absolues des métriques varient considérablement en fonction de la paire de langues, du domaine et d'autres facteurs. Il est donc difficile d'établir des directives générales pour interpréter les valeurs des scores et les utilisateurs devraient principalement décider en fonction des différences entre le système générique et le système personnalisé (évalué sur un ensemble de données identique).
Ce tableau peut être considéré comme un point de départ utile pour interpréter les valeurs des métriques individuelles :
-
Les scores en dessous du seuil de qualité de la traduction automatique de faible qualité peuvent indiquer des problèmes graves et de tels systèmes ne devraient généralement pas être déployés sans analyse supplémentaire.
-
Les scores qui dépassent le seuil pour la traduction automatique de haute qualité indiquent généralement un système très performant qui produit des traductions fluides et adéquates.
|
Métrique |
Plage |
Seuil de traduction automatique de faible qualité |
Seuil de traduction automatique de haute qualité |
|---|---|---|---|
|
COMÈTE |
Typiquement de 0 à 1 |
< 0,3 |
> 0,8 |
|
BLEU |
0 à 100 |
< 15 |
> 50 |
|
TER |
0 à 100, plus bas est mieux |
> 70 |
< 30 |
|
chrf3 |
0 à 100 |
< 20 |
> 60 |