Utilisation des métriques MT

Le contenu est traduit de l’anglais par Phrase Language AI.

Les métriques d'évaluation automatisées jouent un rôle crucial dans l'évaluation de la qualité des traductions produites par les systèmes de traduction automatique. Contrairement aux évaluations humaines, qui peuvent être subjectives et chronophages, les métriques automatisées fournissent un moyen rapide, objectif et répétable d'évaluer la performance des systèmes de MT.

Phrase Custom IA intègre plusieurs métriques automatisées bien établies pour évaluer la qualité de la traduction automatique : BLEU, TER, chrf3 et COMET.

Il est conseillé de déployer des systèmes personnalisés dans un environnement de production si les deux conditions suivantes sont remplies :

BLEU amélioration d'au moins 5 points (absolus, par exemple 40 contre 35), ou chrf amélioration d'au moins 4 points.
Aucune diminution significative du score COMET.

Dans la plupart des cas, des améliorations de cette ampleur sont facilement perceptibles pour les traducteurs humains et conduisent à des temps de post-édition améliorés.

Approche recommandée

En général, les valeurs absolues des métriques varient en fonction de la paire de langues, du domaine et d'autres facteurs. Pour évaluer le succès du processus de personnalisation, examinez la différence entre les scores du système générique et du système personnalisé.

BLEU, chrf et TER mesurent tous le chevauchement de chaînes entre les sorties de MT et les traductions de référence. Par définition, une amélioration significative de ces scores implique moins d'efforts de post-édition pour les traducteurs.

COMET mesure la qualité de la traduction de manière générale. COMET n'augmentera pas nécessairement après personnalisation (le système personnalisé peut produire des traductions de qualité similaire, la différence réside dans le fait que les traductions correspondent au style, au ton, à la terminologie, etc. du client). Cependant, une diminution significative de COMET peut signaler un problème avec le système personnalisé.

Métriques disponibles

Phrase Custom IA intègre plusieurs métriques automatisées bien établies pour évaluer la qualité de la traduction automatique : BLEU, TER, chrf3 et COMET. Chacune de ces métriques offre une approche unique pour évaluer la qualité de la traduction, répondant à différents aspects de la traduction.

COMET (Métrique Optimisée Cross-lingual pour l'Évaluation de la Traduction)

Vue d'ensemble

COMET est une métrique plus récente qui utilise des modèles d'apprentissage automatique pour évaluer les traductions. Contrairement aux métriques traditionnelles, elle ne repose pas uniquement sur des comparaisons de texte superficielles.
Mécanisme de fonctionnement

COMET utilise un modèle de réseau de neurones entraîné sur de grands ensembles de données de jugements humains. Elle évalue les traductions en tenant compte de divers aspects de la qualité de la traduction, y compris la fluidité, l'adéquation et la préservation du sens.
Cas d'utilisation

COMET est efficace dans les scénarios où une compréhension plus approfondie de la qualité de la traduction est requise. Elle est particulièrement utile pour évaluer les traductions où l'exactitude contextuelle et sémantique est plus importante que la correspondance littérale mot à mot.

BLEU (Évaluation Bilingue de l'Intermédiaire)

Vue d'ensemble

BLEU, l'une des premières et des plus largement utilisées, évalue la qualité du texte traduit par machine en le comparant à une ou plusieurs traductions de référence de haute qualité. BLEU mesure la correspondance des phrases entre le texte généré par la machine et les textes de référence, en se concentrant sur la précision des correspondances de mots.
Mécanisme de fonctionnement

BLEU calcule la précision des n-grammes pour différentes longueurs de n-grammes (typiquement de 1 à 4 mots) et combine ensuite ces scores en utilisant une moyenne géométrique. Elle incorpore également une pénalité de brièveté pour traiter le problème des traductions trop courtes.
Cas d'utilisation

BLEU est particulièrement efficace pour évaluer les traductions où la correspondance exacte des phrases et l'ordre des mots sont importants. Cependant, sa dépendance aux correspondances exactes peut être une limitation pour capturer la qualité des traductions plus fluides ou idiomatiques.

TER (Taux de Modification de Traduction)

Vue d'ensemble

TER est une métrique qui mesure le nombre de modifications nécessaires pour transformer un texte traduit par machine en une traduction de référence. Elle est basée sur le concept de distance d'édition et inclut des opérations telles que les insertions, les suppressions et les substitutions. Contrairement à d'autres métriques de cette liste, un score TER plus bas signifie une meilleure traduction.
Mécanisme de fonctionnement

TER calcule le nombre minimum de modifications nécessaires pour transformer la traduction automatique en l'une des traductions de référence. Le score est ensuite normalisé par le nombre total de mots dans la traduction de référence.
Cas d'utilisation

TER est utile pour évaluer les traductions où l'accent est mis sur la quantité de travail de post-édition requise. Il est particulièrement pertinent dans les scénarios où les traductions seront post-éditées par des humains.

chrf3 (F-score des n-grammes de caractères)

Vue d'ensemble

chrf3, ou F-score des n-grammes de caractères, est une métrique qui évalue les traductions sur la base des n-grammes au niveau des caractères. Elle prend en compte à la fois la précision et le rappel, fournissant un équilibre entre les deux.
Mécanisme de fonctionnement

chrf3 calcule le F-score, une moyenne harmonique de la précision et du rappel, basée sur le chevauchement des n-grammes de caractères entre la traduction automatique et le texte de référence.
Cas d'utilisation

chrf3 est avantageux pour les langues où la segmentation des mots est difficile ou pour les langues morphologiquement riches. Il est également moins sensible à l'ordre des mots que le BLEU, ce qui le rend plus flexible pour évaluer les traductions avec des formulations différentes mais acceptables.

Plages de scores

Les valeurs absolues des métriques varient considérablement en fonction de la paire de langues, du domaine et d'autres facteurs. Il est donc difficile d'établir des directives générales pour interpréter les valeurs des scores et les utilisateurs devraient principalement décider en fonction des différences entre le système générique et le système personnalisé (évalué sur un ensemble de données identique).

Ce tableau peut être considéré comme un point de départ utile pour interpréter les valeurs des métriques individuelles :

Les scores en dessous du seuil de MT de faible qualité peuvent indiquer des problèmes graves et de tels systèmes ne devraient généralement pas être déployés sans analyse supplémentaire.
Les scores qui dépassent le seuil de MT de haute qualité indiquent généralement un système très performant qui produit des traductions fluides et adéquates.

Métrique	Plage	Seuil de MT de faible qualité	Seuil de MT de haute qualité
COMÈTE	Typiquement de 0 à 1	< 0,3	> 0,8
BLEU	0 à 100	< 15	> 50
TER	0 à 100, plus bas est mieux	> 70	< 30
chrf3	0 à 100	< 20	> 60