Métricas de avaliação automatizada desempenham um papel crucial na avaliação da qualidade das traduções produzidas por sistemas de tradução automática. Ao contrário das avaliações humanas, que podem ser subjetivas e demoradas, as métricas automatizadas fornecem uma maneira rápida, objetiva e repetível de medir o desempenho dos sistemas de MT.
A Phrase Custom IA incorpora várias métricas automatizadas bem estabelecidas para avaliar a qualidade da tradução automática: BLEU, TER, chrf3 e COMET.
É aconselhável implantar sistemas personalizados em um ambiente de produção se ambas as seguintes condições forem atendidas:
-
BLEU melhoria de pelo menos 5 pontos (absoluto, por exemplo, 40 vs 35), ou chrf melhoria de pelo menos 4 pontos.
-
Nenhuma diminuição significativa da pontuação do COMET.
Na maioria dos casos, melhorias dessa magnitude são facilmente perceptíveis para tradutores humanos e levam a tempos de pós-edição melhorados.
Abordagem Recomendada
Em geral, os valores absolutos das métricas variam dependendo do par de idiomas, domínio e outros fatores. Para avaliar quão bem-sucedido foi o processo de personalização, examine a diferença entre as pontuações do sistema genérico e do sistema personalizado.
BLEU, chrf e TER medem a sobreposição de strings entre as saídas de MT e as traduções de referência. Por definição, uma melhoria significativa nessas pontuações implica menos esforço de pós-edição para os tradutores.
COMET mede a qualidade da tradução de forma geral. COMET não necessariamente aumentará após a personalização (o sistema personalizado pode gerar traduções de qualidade similar, a diferença é se as traduções correspondem ao estilo, tom de voz, terminologia etc. do cliente). No entanto, uma diminuição significativa de COMET pode sinalizar um problema com o sistema personalizado.
Métricas Disponíveis
A Phrase Custom IA incorpora várias métricas automatizadas bem estabelecidas para avaliar a qualidade da tradução automática: BLEU, TER, chrf3 e COMET. Cada uma dessas métricas oferece uma abordagem única para avaliar a qualidade da tradução, atendendo a diferentes aspectos da tradução.
COMET (Métrica Otimizada Cross-lingual para Avaliação de Tradução)
-
Visão Geral
COMET é uma métrica mais recente que utiliza modelos de aprendizado de máquina para avaliar traduções. Ao contrário das métricas tradicionais, não se baseia apenas em comparações de texto superficiais.
-
Mecanismo de Funcionamento
COMET utiliza um modelo de rede neural treinado em grandes conjuntos de dados de julgamentos humanos. Avalia traduções considerando vários aspectos da qualidade da tradução, incluindo fluência, adequação e preservação do significado.
-
Casos de Uso
COMET é eficaz em cenários onde uma compreensão mais profunda da qualidade da tradução é necessária. É particularmente útil para avaliar traduções onde a precisão contextual e semântica é mais importante do que a correspondência literal palavra por palavra.
BLEU (Avaliação Bilingue Substituta)
-
Visão Geral
BLEU, uma das métricas mais antigas e amplamente utilizadas, avalia a qualidade do texto traduzido por máquina comparando-o com uma ou mais traduções de referência de alta qualidade. BLEU mede a correspondência de frases entre o texto gerado pela máquina e os textos de referência, focando na precisão das correspondências de palavras.
-
Mecanismo de Funcionamento
BLEU calcula a precisão de n-gramas para vários comprimentos de n-gramas (tipicamente de 1 a 4 palavras) e, em seguida, combina essas pontuações usando uma média geométrica. Também incorpora uma penalidade de brevidade para abordar o problema de traduções excessivamente curtas.
-
Casos de Uso
BLEU é particularmente eficaz para avaliar traduções onde a correspondência exata de frases e a ordem das palavras são importantes. No entanto, sua dependência de correspondências exatas pode ser uma limitação na captura da qualidade de traduções mais fluentes ou idiomáticas.
TER (Taxa de Edição de Tradução)
-
Visão Geral
TER é uma métrica que mede o número de edições necessárias para transformar um texto traduzido por máquina em uma tradução de referência. Baseia-se no conceito de distância de edição e inclui operações como inserções, exclusões e substituições. Ao contrário de outras métricas nesta lista, uma pontuação TER mais baixa significa uma melhor tradução.
-
Mecanismo de Funcionamento
O TER calcula o número mínimo de edições necessárias para transformar a tradução automática em uma das traduções de referência. A pontuação é então normalizada pelo número total de palavras na tradução de referência.
-
Casos de Uso
O TER é útil para avaliar traduções onde o foco está na quantidade de trabalho de pós-edição necessário. É particularmente relevante em cenários onde as traduções serão pós-editadas por humanos.
chrf3 (F-score de n-grama de caractere)
-
Visão Geral
chrf3, ou F-score de n-grama de caractere, é uma métrica que avalia traduções com base em n-gramas de nível de caractere. Ela considera tanto a precisão quanto a recuperação, proporcionando um equilíbrio entre as duas.
-
Mecanismo de Funcionamento
O chrf3 calcula o F-score, uma média harmônica de precisão e recuperação, com base na sobreposição de n-gramas de caracteres entre a tradução automática e o texto de referência.
-
Casos de Uso
O chrf3 é vantajoso para idiomas onde a segmentação de palavras é desafiadora ou para idiomas morfologicamente ricos. Ele também é menos sensível à ordem das palavras do que o BLEU, tornando-o mais flexível na avaliação de traduções com formulações diferentes, mas aceitáveis.
Faixas de pontuação
Os valores absolutos das métricas variam significativamente dependendo do par de idiomas, domínio e outros fatores. Portanto, é difícil estabelecer diretrizes gerais para interpretar os valores de pontuação e os usuários devem decidir principalmente com base nas diferenças entre o sistema genérico e o personalizado (avaliado em um conjunto de dados idêntico).
Esta tabela pode ser considerada um ponto de partida útil para interpretar os valores das métricas individuais:
-
Pontuações abaixo do limite de MT de baixa qualidade podem ser indicativas de problemas sérios e tais sistemas geralmente não devem ser implantados sem uma análise adicional.
-
Pontuações que excedem o limite para MT de alta qualidade geralmente indicam um sistema de desempenho muito bom que produz traduções fluentes e adequadas.
|
Métrica |
Faixa |
Limite de MT de baixa qualidade |
Limite de MT de alta qualidade |
|---|---|---|---|
|
COMETA |
Tipicamente de 0 a 1 |
< 0,3 |
> 0,8 |
|
BLEU |
0 a 100 |
< 15 |
> 50 |
|
TER |
0 a 100, quanto menor, melhor |
> 70 |
< 30 |
|
chrf3 |
0 a 100 |
< 20 |
> 60 |