Custom AI

Using MT Metrics

O conteúdo de toda a Central de Ajuda é traduzido automaticamente de inglês pelo Phrase Language AI.

As métricas de avaliação automatizada desempenham um papel fundamental na avaliação da qualidade das traduções produzidas por sistemas de tradução automática. As métricas automatizadas são uma maneira rápida, objetiva e repetível de medir o desempenho dos sistemas de tradução automática.

O Phrase Custom AI incorpora várias métricas automatizadas bem estabelecidas para avaliar a qualidade da tradução automática: BLEU, TER, chrf3 e COMET.

Recomenda-se implantar sistemas personalizados em um ambiente de produção se as seguintes condições forem atendidas:

  • Melhoria de BLEU de pelo menos 5 pontos (absoluto, por exemplo, 40 vs 35), ou melhoria de chrf de pelo menos 4 pontos.

  • Sem redução significativa da pontuação COMET.

Na maioria dos casos, melhorias deste tamanho são facilmente visíveis para os tradutores humanos e levam a melhores tempos de pós-edição.

A abordagem recomendada

Em geral, os valores absolutos das métricas variam dependendo do par de idiomas, domínio e outros fatores. Para avaliar o sucesso do processo de personalização, examine a diferença entre as pontuações do sistema genérico e personalizado.

BLEU, chrf e TER todos medem a sobreposição de strings entre as saídas de tradução automática e traduções de referência. Por definição, uma melhoria significativa dessas pontuações implica menos esforço de pós-edição para os tradutores.

O COMET mensura a qualidade da tradução em sentido geral. O COMET não será necessariamente aumentado após a personalização (o sistema personalizado pode produzir traduções de qualidade semelhante, a diferença é se as traduções correspondem ao estilo, tom de voz, terminologia etc. do cliente). No entanto, uma diminuição significativa de COMET pode sinalizar um problema com o sistema personalizado.

Métrias Disponíveis

O Phrase Custom AI incorpora várias métricas automatizadas bem estabelecidas para avaliar a qualidade da tradução automática: BLEU, TER, chrf3 e COMET. Cada uma dessas métricas oferece uma abordagem única para avaliar a qualidade da tradução, atendendo a diferentes aspectos da tradução.

COMET (métrica otimizada multilíngue para avaliação da tradução)

  • Overview

    O COMET é uma métrica mais recente que emprega modelos de aprendizado automático para avaliar traduções. Diferente das métricas tradicionais, ela não depende apenas de comparações de texto a nível de superfície.

  • Mecanismo de trabalho

    O COMET usa um modelo de rede neural treinado em grandes conjuntos de dados de julgamentos humanos. Avalia as traduções levando-se em conta vários aspectos da qualidade da tradução, inclusive a fluência, a adequação e a preservação do significado.

  • Casos de usar

    O COMET é eficaz em cenários em que é necessário um conhecimento mais profundo sobre a qualidade da tradução. É especialmente útil para avaliar traduções em que a precisão contextual e semântica é mais importante do que a correspondência literal de palavra a palavra.

BLEU (estudo de avaliação bilíngue)

  • Overview

    O BLEU, uma das métricas mais antigas e mais amplamente utilizadas, avalia a qualidade do texto traduzido automaticamente comparando-o com uma ou mais traduções de referência de alta qualidade. O BLEU mensura a correspondência de expressões entre o texto gerado automaticamente e os textos de referência, com foco na precisão das correspondências de palavras.

  • Mecanismo de trabalho

    O BLEU calcula a precisão de n-gram para vários comprimentos de n-gramas (geralmente 1 a 4 palavras) e então combina essas pontuações usando uma média geométrica. Ela também inclui uma penalidade de brevidade para resolver o problema de traduções excessivamente curtas.

  • Casos de usar

    O BLEU é especialmente eficaz para avaliar traduções em que a correspondência exata das frases e da ordem das palavras é importante. No entanto, a dependência de correspondências exatas pode ser uma limitação na captura da qualidade de traduções mais fluentes ou idiomáticas.

TER (tarifa de edição de tradução)

  • Overview

    O TER é uma métrica que mensura o número de edições necessárias para alterar um texto traduzido automaticamente para uma tradução de referência. É baseado no conceito de distância de edição e inclui operações como inserções, exclusões e substituições. Diferente de outras métricas nesta lista, uma pontuação mais baixa do TER significa uma melhor tradução.

  • Mecanismo de trabalho

    O TER calcula o número mínimo de edições necessário para transformar a tradução automática em uma das traduções de referência. A pontuação é então normalizada pelo número total de palavras na tradução de referência.

  • Casos de usar

    O TER é útil para avaliar traduções em que o foco está na quantidade de trabalho de pós-edição necessário. É especialmente relevante em cenários em que as traduções serão pós-edicionadas por seres humanos.

chrf3 (score F do caractere n-gram)

  • Overview

    chrf3, ou caractere n-gram F-score, é uma métrica que avalia traduções com base em n-grams de nível de caractere. Isso considera precisão e recarregamento, proporcionando um equilíbrio entre os dois.

  • Mecanismo de trabalho

    O chrf3 calcula a pontuação F, uma média harmônica de precisão e recarga, com base na sobreposição de caracteres n-gramas entre a tradução automática e o texto de referência.

  • Casos de usar

    O chrf3 é vantajoso para idiomas em que a segmentação de palavras é desafiador ou para idiomas ricos em morfologia. Ela também é menos sensível à ordem do que o BLEU, tornando-a mais flexível na avaliação de traduções com expressões diferentes, mas aceitáveis.

Intervalos de pontuação

Os valores absolutos das métricas variam significativamente dependendo do par de idiomas, domínio e outros fatores. Portanto é difícil estabelecer diretrizes gerais para interpretar valores de pontuação e os usuários devem decidir principalmente com base nas diferenças entre o sistema genérico e o sistema personalizado (avaliado em um conjunto de dados idêntico).

Esta tabela pode ser considerada um ponto de partida útil para interpretar os valores das métricas individuais:

  • Escores abaixo do limite de tradução automática de baixa qualidade podem indicar problemas graves, e esses sistemas normalmente não devem ser implantados sem mais análise.

  • Pontuações que excedem o limite para tradução automática de alta qualidade normalmente indicam um sistema muito bem desempenhado que produz traduções fluentes e adequadas.

Métrica

Intervalo

Limite de tradução automática de baixa qualidade

Limite de tradução automática de alta qualidade

COMET

Normalmente 0 a 1

< 0.3

> 0.8

BLEU

0 a 100

< 15

> 50

TER

0 a 100, menor é melhor

> 70

< 30

chrf3

0 a 100

< 20

> 60

Esse artigo foi útil?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.