As métricas de avaliação automatizada desempenham um papel fundamental na avaliação da qualidade das traduções produzidas por sistemas de tradução automática. As métricas automatizadas são uma maneira rápida, objetiva e repetível de medir o desempenho dos sistemas de tradução automática.
O Phrase Custom AI incorpora várias métricas automatizadas bem estabelecidas para avaliar a qualidade da tradução automática: BLEU, TER, chrf3 e COMET.
Recomenda-se implantar sistemas personalizados em um ambiente de produção se as seguintes condições forem atendidas:
-
Melhoria de BLEU de pelo menos 5 pontos (absoluto, por exemplo, 40 vs 35), ou melhoria de chrf de pelo menos 4 pontos.
-
Sem redução significativa da pontuação COMET.
Na maioria dos casos, melhorias deste tamanho são facilmente visíveis para os tradutores humanos e levam a melhores tempos de pós-edição.
A abordagem recomendada
Em geral, os valores absolutos das métricas variam dependendo do par de idiomas, domínio e outros fatores. Para avaliar o sucesso do processo de personalização, examine a diferença entre as pontuações do sistema genérico e personalizado.
BLEU, chrf e TER todos medem a sobreposição de strings entre as saídas de tradução automática e traduções de referência. Por definição, uma melhoria significativa dessas pontuações implica menos esforço de pós-edição para os tradutores.
O COMET mensura a qualidade da tradução em sentido geral. O COMET não será necessariamente aumentado após a personalização (o sistema personalizado pode produzir traduções de qualidade semelhante, a diferença é se as traduções correspondem ao estilo, tom de voz, terminologia etc. do cliente). No entanto, uma diminuição significativa de COMET pode sinalizar um problema com o sistema personalizado.
Métrias Disponíveis
O Phrase Custom AI incorpora várias métricas automatizadas bem estabelecidas para avaliar a qualidade da tradução automática: BLEU, TER, chrf3 e COMET. Cada uma dessas métricas oferece uma abordagem única para avaliar a qualidade da tradução, atendendo a diferentes aspectos da tradução.
COMET (métrica otimizada multilíngue para avaliação da tradução)
-
Overview
O COMET é uma métrica mais recente que emprega modelos de aprendizado automático para avaliar traduções. Diferente das métricas tradicionais, ela não depende apenas de comparações de texto a nível de superfície.
-
Mecanismo de trabalho
O COMET usa um modelo de rede neural treinado em grandes conjuntos de dados de julgamentos humanos. Avalia as traduções levando-se em conta vários aspectos da qualidade da tradução, inclusive a fluência, a adequação e a preservação do significado.
-
Casos de usar
O COMET é eficaz em cenários em que é necessário um conhecimento mais profundo sobre a qualidade da tradução. É especialmente útil para avaliar traduções em que a precisão contextual e semântica é mais importante do que a correspondência literal de palavra a palavra.
BLEU (estudo de avaliação bilíngue)
-
Overview
O BLEU, uma das métricas mais antigas e mais amplamente utilizadas, avalia a qualidade do texto traduzido automaticamente comparando-o com uma ou mais traduções de referência de alta qualidade. O BLEU mensura a correspondência de expressões entre o texto gerado automaticamente e os textos de referência, com foco na precisão das correspondências de palavras.
-
Mecanismo de trabalho
O BLEU calcula a precisão de n-gram para vários comprimentos de n-gramas (geralmente 1 a 4 palavras) e então combina essas pontuações usando uma média geométrica. Ela também inclui uma penalidade de brevidade para resolver o problema de traduções excessivamente curtas.
-
Casos de usar
O BLEU é especialmente eficaz para avaliar traduções em que a correspondência exata das frases e da ordem das palavras é importante. No entanto, a dependência de correspondências exatas pode ser uma limitação na captura da qualidade de traduções mais fluentes ou idiomáticas.
TER (tarifa de edição de tradução)
-
Overview
O TER é uma métrica que mensura o número de edições necessárias para alterar um texto traduzido automaticamente para uma tradução de referência. É baseado no conceito de distância de edição e inclui operações como inserções, exclusões e substituições. Diferente de outras métricas nesta lista, uma pontuação mais baixa do TER significa uma melhor tradução.
-
Mecanismo de trabalho
O TER calcula o número mínimo de edições necessário para transformar a tradução automática em uma das traduções de referência. A pontuação é então normalizada pelo número total de palavras na tradução de referência.
-
Casos de usar
O TER é útil para avaliar traduções em que o foco está na quantidade de trabalho de pós-edição necessário. É especialmente relevante em cenários em que as traduções serão pós-edicionadas por seres humanos.
chrf3 (score F do caractere n-gram)
-
Overview
chrf3, ou caractere n-gram F-score, é uma métrica que avalia traduções com base em n-grams de nível de caractere. Isso considera precisão e recarregamento, proporcionando um equilíbrio entre os dois.
-
Mecanismo de trabalho
O chrf3 calcula a pontuação F, uma média harmônica de precisão e recarga, com base na sobreposição de caracteres n-gramas entre a tradução automática e o texto de referência.
-
Casos de usar
O chrf3 é vantajoso para idiomas em que a segmentação de palavras é desafiador ou para idiomas ricos em morfologia. Ela também é menos sensível à ordem do que o BLEU, tornando-a mais flexível na avaliação de traduções com expressões diferentes, mas aceitáveis.
Intervalos de pontuação
Os valores absolutos das métricas variam significativamente dependendo do par de idiomas, domínio e outros fatores. Portanto é difícil estabelecer diretrizes gerais para interpretar valores de pontuação e os usuários devem decidir principalmente com base nas diferenças entre o sistema genérico e o sistema personalizado (avaliado em um conjunto de dados idêntico).
Esta tabela pode ser considerada um ponto de partida útil para interpretar os valores das métricas individuais:
-
Escores abaixo do limite de tradução automática de baixa qualidade podem indicar problemas graves, e esses sistemas normalmente não devem ser implantados sem mais análise.
-
Pontuações que excedem o limite para tradução automática de alta qualidade normalmente indicam um sistema muito bem desempenhado que produz traduções fluentes e adequadas.
Métrica |
Intervalo |
Limite de tradução automática de baixa qualidade |
Limite de tradução automática de alta qualidade |
---|---|---|---|
COMET |
Normalmente 0 a 1 |
< 0.3 |
> 0.8 |
BLEU |
0 a 100 |
< 15 |
> 50 |
TER |
0 a 100, menor é melhor |
> 70 |
< 30 |
chrf3 |
0 a 100 |
< 20 |
> 60 |