Uso de métricas de MT

El contenido se traduce automáticamente del inglés por Phrase Language AI.

Las métricas de evaluación automatizadas desempeñan un papel crucial en la evaluación de la calidad de las traducciones producidas por sistemas de traducción automática. A diferencia de las evaluaciones humanas, que pueden ser subjetivas y requerir mucho tiempo, las métricas automatizadas proporcionan una forma rápida, objetiva y repetible de medir el rendimiento de los sistemas de MT.

Phrase Custom AI incorpora varias métricas automatizadas bien establecidas para evaluar la calidad de la traducción automática: BLEU, TER, chrf3 y COMET.

Se recomienda implementar sistemas personalizados en un entorno de producción si se cumplen las dos condiciones siguientes:

BLEU mejora de al menos 5 puntos (absolutos, p. ej., 40 frente a 35), o chrf mejora de al menos 4 puntos.
Ninguna disminución significativa de la puntuación de COMET.

En la mayoría de los casos, las mejoras de esta magnitud son fácilmente perceptibles para los traductores humanos y conducen a mejores tiempos de posedición.

Enfoque recomendado

En general, los valores absolutos de las métricas varían según la combinación, el dominio y otros factores. Para evaluar el éxito del proceso de personalizar, examine la diferencia entre las puntuación del sistema genérico y el personalizado.

BLEU, chrf y TER miden la concordancia de cadena entre las salida de MT y las traducciones de referencia. Por definición, una mejora significativa en estas puntuación implica menos esfuerzo de posedición para los traductores.

COMET mide la calidad de la traducción en un sentido general. COMET no aumentará necesariamente después de personalizar (el sistema personalizado puede generar salida de calidad similar, la diferencia radica en si las traducciones coinciden con el estilo, el tono de voz, la terminología, etc., del cliente). Sin embargo, una disminución significativa de COMET puede indicar un problema con el sistema personalizado.

Métricas disponibles

Phrase Custom AI incorpora varias métricas automatizadas bien establecidas para evaluar la calidad de la traducción automática: BLEU, TER, chrf3 y COMET. Cada una de estas métricas ofrece un enfoque único para evaluar la calidad de la traducción, atendiendo a diferentes aspectos de la traducción.

COMET (Métrica optimizada interlingüe para la evaluación de la traducción)

Overview

COMET es una métrica más reciente que emplea modelos de aprendizaje automático para evaluar traducciones. A diferencia de las métricas tradicionales, no depende únicamente de comparaciones de texto a nivel superficial.
Working Mechanism

COMET utiliza un modelo de red neuronal entrenado en grandes conjuntos de datos de juicios humanos. Evalúa las traducciones considerando varios aspectos de la calidad de la traducción, incluida la fluidez, la adecuación y la preservación del significado.
Casos prácticos

COMET es eficaz en escenarios donde se requiere una comprensión más profunda de la calidad de la traducción. Es particularmente útil para evaluar traducciones donde la precisión contextual y semántica es más importante que la correspondencia literal palabra por palabra.

BLEU (Bilingual Evaluation Understudy)

Overview

BLEU, una de las métricas más antiguas y utilizadas, evalúa la calidad del texto traducido automáticamente comparándolo con una o más traducciones de referencia de alta calidad. BLEU mide la correspondencia de frases entre el texto generado por la máquina y los textos de referencia, centrándose en la precisión de las coincidencias de palabras.
Working Mechanism

BLEU calcula la precisión de n-gramas para varias longitudes de n-gramas (normalmente de 1 a 4 palabras) y luego combina estas puntuación usando una media geométrica. También incorpora una penalización por brevedad para abordar el problema de las traducciones demasiado cortas.
Casos prácticos

BLEU es particularmente eficaz para evaluar traducciones donde la coincidencia exacta de frases y el orden es importante. Sin embargo, su dependencia de las coincidencias exactas puede ser una limitación para capturar la calidad de traducciones más fluidas o idiomáticas.

TER (Translation Edit Rate)

Overview

TER es una métrica que mide el número de editar necesarias para cambiar un texto traducido automáticamente a una traducción de referencia. Se basa en el concepto de distancia de edición e incluye operaciones como inserciones, eliminaciones y sustituciones. A diferencia de otras métricas en esta lista, una puntuación TER más baja significa una mejor traducción.
Working Mechanism

TER calcula el número mínimo de ediciones necesarias para transformar la traducción automática en una de las traducciones de referencia. La puntuación se normaliza entonces por el número total de palabras en la traducción de referencia.
Casos prácticos

TER es útil para evaluar traducciones donde el enfoque está en la cantidad de trabajo de posedición requerido. Es particularmente relevante en escenarios donde las traducciones serán posedicionadas por humanos.

chrf3 (puntuación F de n-gramas de carácter)

Overview

chrf3, o puntuación F de n-gramas de carácter, es una métrica que evalúa las traducciones basándose en n-gramas a nivel de carácter. Considera tanto la precisión como la exhaustividad, proporcionando un equilibrio entre ambas.
Working Mechanism

chrf3 calcula la puntuación, una media armónica de precisión y exhaustividad, basada en la superposición de n-gramas de carácter entre la traducción automática y el texto de referencia.
Casos prácticos

chrf3 es ventajoso para idiomas donde la segmentación es difícil o para idiomas morfológicamente ricos. También es menos sensible al orden de las palabras que BLEU, lo que la hace más flexible al evaluar traducciones con frases diferentes pero aceptables.

Rangos de puntuación

Los valores absolutos de las métricas varían significativamente dependiendo de la combinación, el dominio y otros factores. Por lo tanto, es difícil establecer directrices generales para interpretar los valores de puntuación y los usuarios deben decidir principalmente basándose en las diferencias entre el sistema genérico y el personalizado (evaluado en un conjunto de datos idéntico).

Esta tabla puede considerarse un punto de partida útil para interpretar los valores de las métricas individuales:

Las puntuaciones por debajo del umbral de MT de baja calidad pueden ser indicativas de problemas graves y dichos sistemas normalmente no deberían implementarse sin un análisis adicional.
Las puntuaciones que superan el umbral de MT de alta calidad suelen indicar un sistema de muy buen rendimiento que produce traducciones fluidas y adecuadas.

Métrica	Rango	Umbral de MT de baja calidad	Umbral de MT de alta calidad
COMET	Normalmente de 0 a 1	< 0.3	> 0.8
BLEU	0 como 100	< 15	> 50
TER	0 como 100, cuanto más bajo, mejor	> 70	< 30
chrf3	0 como 100	< 20	> 60