Las métricas de evaluación automatizada juegan un papel crucial en la evaluación de la calidad de las traducciones producidas por los sistemas de traducción automática. A diferencia de las evaluaciones humanas, que pueden ser subjetivas y llevar mucho tiempo, las métricas automatizadas proporcionan una forma rápida, objetiva y repetible de medir el rendimiento de los sistemas de MT.
Phrase Custom AI incorpora varias métricas automatizadas bien establecidas para evaluar la calidad de la traducción automática: BLEU, TER, chrf3 y COMET.
Se recomienda implementar sistemas personalizados en un entorno de producción si se cumplen ambas condiciones siguientes:
-
BLEU mejora de al menos 5 puntos (absoluto, por ejemplo, 40 frente a 35), o chrf mejora de al menos 4 puntos.
-
No debe haber una disminución significativa de la puntuación de COMET.
En la mayoría de los casos, mejoras de esta magnitud son fácilmente notables para los traductores humanos y conducen a tiempos de posedición mejorados.
Enfoque recomendado
En general, los valores absolutos de las métricas varían dependiendo de la combinación de idiomas, dominio y otros factores. Para medir cuán exitoso fue el proceso de personalización, examine la diferencia entre las puntuaciones del sistema genérico y el sistema personalizado.
BLEU, chrf y TER miden la superposición de cadenas entre las salidas de MT y las traducciones de referencia. Por definición, una mejora significativa en estas puntuaciones implica menos esfuerzo de posedición para los traductores.
COMET mide la calidad de la traducción en un sentido general. COMET no necesariamente aumentará después de la personalización (el sistema personalizado puede producir traducciones de calidad similar, la diferencia radica en si las traducciones coinciden con el estilo, tono de voz, terminología, etc. del cliente). Sin embargo, una disminución significativa de COMET puede señalar un problema con el sistema personalizado.
Métricas disponibles
Phrase Custom AI incorpora varias métricas automatizadas bien establecidas para evaluar la calidad de la traducción automática: BLEU, TER, chrf3 y COMET. Cada una de estas métricas ofrece un enfoque único para evaluar la calidad de la traducción, atendiendo a diferentes aspectos de la traducción.
COMET (Métrica Optimizada Cross-lingual para la Evaluación de Traducción)
-
Resumen
COMET es una métrica más reciente que emplea modelos de aprendizaje automático para evaluar traducciones. A diferencia de las métricas tradicionales, no se basa únicamente en comparaciones de texto a nivel superficial.
-
Mecanismo de Trabajo
COMET utiliza un modelo de red neuronal entrenado en grandes conjuntos de datos de juicios humanos. Evalúa las traducciones considerando varios aspectos de la calidad de la traducción, incluyendo fluidez, adecuación y preservación del significado.
-
Casos de Uso
COMET es efectivo en escenarios donde se requiere una comprensión más profunda de la calidad de la traducción. Es particularmente útil para evaluar traducciones donde la precisión contextual y semántica es más importante que la correspondencia literal palabra por palabra.
BLEU (Evaluación Bilingüe de Sustitución)
-
Resumen
BLEU, una de las métricas más antiguas y ampliamente utilizadas, evalúa la calidad del texto traducido por máquina comparándolo con una o más traducciones de referencia de alta calidad. BLEU mide la correspondencia de frases entre el texto generado por la máquina y los textos de referencia, centrándose en la precisión de las coincidencias de palabras.
-
Mecanismo de Trabajo
BLEU calcula la precisión de n-gramas para varias longitudes de n-gramas (típicamente de 1 a 4 palabras) y luego combina estas puntuaciones utilizando una media geométrica. También incorpora una penalización por brevedad para abordar el problema de traducciones excesivamente cortas.
-
Casos de Uso
BLEU es particularmente efectivo para evaluar traducciones donde la coincidencia exacta de frases y el orden de las palabras son importantes. Sin embargo, su dependencia de coincidencias exactas puede ser una limitación para capturar la calidad de traducciones más fluidas o idiomáticas.
TER (Tasa de Edición de Traducción)
-
Resumen
TER es una métrica que mide el número de ediciones requeridas para cambiar un texto traducido por máquina en una traducción de referencia. Se basa en el concepto de distancia de edición e incluye operaciones como inserciones, eliminaciones y sustituciones. A diferencia de otras métricas en esta lista, una puntuación TER más baja significa una mejor traducción.
-
Mecanismo de Trabajo
TER calcula el número mínimo de ediciones necesarias para transformar la traducción automática en una de las traducciones de referencia. La puntuación se normaliza luego por el número total de palabras en la traducción de referencia.
-
Casos de Uso
TER es útil para evaluar traducciones donde el enfoque está en la cantidad de trabajo de posedición requerido. Es particularmente relevante en escenarios donde las traducciones serán poseeditadas por humanos.
chrf3 (Puntuación F de n-gramas de caracteres)
-
Resumen
chrf3, o puntuación F de n-gramas de caracteres, es una métrica que evalúa traducciones basadas en n-gramas a nivel de caracteres. Considera tanto la precisión como la recuperación, proporcionando un equilibrio entre ambas.
-
Mecanismo de Trabajo
chrf3 calcula la puntuación F, una media armónica de precisión y recuperación, basada en la superposición de n-gramas de caracteres entre la traducción automática y el texto de referencia.
-
Casos de Uso
chrf3 es ventajoso para idiomas donde la segmentación de palabras es un desafío o para idiomas morfológicamente ricos. También es menos sensible al orden de las palabras que BLEU, lo que lo hace más flexible en la evaluación de traducciones con formulaciones diferentes pero aceptables.
Rangos de puntuación
Los valores absolutos de las métricas varían significativamente dependiendo de la combinación de idiomas, dominio y otros factores. Por lo tanto, es difícil establecer pautas generales para interpretar los valores de puntuación y los usuarios deben decidir principalmente en función de las diferencias entre el sistema genérico y el personalizado (evaluado en un conjunto de datos idéntico).
Esta tabla puede considerarse un punto de partida útil para interpretar los valores de las métricas individuales:
-
Las puntuaciones por debajo del umbral de MT de baja calidad pueden ser indicativas de problemas graves y tales sistemas no deberían ser desplegados sin un análisis adicional.
-
Las puntuaciones que superan el umbral para MT de alta calidad típicamente indican un sistema de muy buen rendimiento que produce traducciones fluidas y adecuadas.
|
Métrica |
Rango |
Umbral de MT de baja calidad |
Umbral de MT de alta calidad |
|---|---|---|---|
|
COMETA |
Típicamente de 0 a 1 |
< 0.3 |
> 0.8 |
|
BLEU |
0 a 100 |
< 15 |
> 50 |
|
TER |
0 a 100, menor es mejor |
> 70 |
< 30 |
|
chrf3 |
0 a 100 |
< 20 |
> 60 |