Custom AI

Usando métricas MT

O conteúdo de toda a Central de Ajuda é traduzido automaticamente de inglês pelo Phrase Language AI.

As métricas de avaliação automatizada desempenham um papel crucial na avaliação da qualidade das traduções produzidas por sistemas de tradução automática. Ao contrário das avaliações humanas, que podem ser subjetivas e demoradas, as métricas automatizadas fornecem uma maneira rápida, objetiva e repetível de avaliar o desempenho dos sistemas de MT.

O Phrase Custom AI incorpora várias métricas automatizadas bem estabelecidas para avaliar a qualidade da tradução automática: BLEU, TER, chrf3 e COMET.

É aconselhável implantar sistemas personalizados em um ambiente de produção se ambas as seguintes condições forem atendidas:

  • Melhoria do BLEU de pelo menos 5 pontos (absoluta, por exemplo, 40 vs 35), ou melhoria do chrf de pelo menos 4 pontos.

  • Não houve diminuição significativa do escore COMET.

Na maioria dos casos, melhorias dessa magnitude são facilmente perceptíveis para tradutores humanos e levam a melhores tempos de pós-edição.

Abordagem recomendada

Em geral, os valores absolutos das métricas variam dependendo do par de idiomas, domínio e outros fatores. Para avaliar o sucesso do processo de personalização, examine a diferença entre as pontuações do sistema genérico e personalizado.

BLEU, chrf e TER medem a sobreposição de cadeias entre as saídas MT e as traduções de referência. Por definição, uma melhora significativa nesses escores implica menor esforço pós-edição para os tradutores.

O COMET mede a qualidade da tradução em um sentido geral. O COMET não necessariamente aumentará após a personalização (o sistema personalizado pode produzir traduções de qualidade semelhante, a diferença é se as traduções correspondem ao estilo, tom de voz, terminologia etc.). No entanto, uma diminuição significativa do COMET pode sinalizar um problema com o sistema personalizado.

Métricas disponíveis

O Phrase Custom AI incorpora várias métricas automatizadas bem estabelecidas para avaliar a qualidade da tradução automática: BLEU, TER, chrf3 e COMET. Cada uma dessas métricas oferece uma abordagem única para avaliar a qualidade da tradução, atendendo a diferentes aspectos da tradução.

COMET (Cross-lingual Optimized Metric para Avaliação da Tradução)

  • Visão geral

    O COMET é uma métrica mais recente que emprega modelos de aprendizado de máquina para avaliar traduções. Ao contrário das métricas tradicionais, ele não depende apenas de comparações de texto no nível da superfície.

  • Mecanismo de Trabalho

    O COMET usa um modelo de rede neural treinado em grandes conjuntos de dados de julgamentos humanos. Ele avalia as traduções considerando vários aspectos da qualidade da tradução, incluindo fluência, adequação e preservação do significado.

  • Casos de uso

    O COMET é eficaz em cenários onde é necessária uma compreensão mais profunda da qualidade da tradução. É particularmente útil para avaliar traduções em que a precisão contextual e semântica é mais importante do que a correspondência literal palavra por palavra.

BLEU (Graduação em Avaliação Bilíngue)

  • Visão geral

    O BLEU, uma das métricas mais antigas e mais utilizadas, avalia a qualidade do texto traduzido por máquina comparando-o com uma ou mais traduções de referência de alta qualidade. O BLEU mede a correspondência de frases entre o texto gerado por máquina e os textos de referência, com foco na precisão das correspondências de palavras.

  • Mecanismo de Trabalho

    O BLEU calcula a precisão de n-gramas para vários comprimentos de n-gramas (tipicamente 1 a 4 palavras) e, em seguida, combina essas pontuações usando uma média geométrica. Também incorpora uma penalidade de brevidade para abordar a questão das traduções excessivamente curtas.

  • Casos de uso

    O BLEU é particularmente eficaz para avaliar traduções em que a correspondência exata de frases e a ordem das palavras é importante. No entanto, sua dependência de correspondências exatas pode ser uma limitação na captura da qualidade de traduções mais fluentes ou idiomáticas.

TER (Taxa de Edição de Tradução)

  • Visão geral

    TER é uma métrica que mede o número de edições necessárias para transformar um texto traduzido por máquina em uma tradução de referência. Ele é baseado no conceito de distância de edição e inclui operações como inserções, exclusões e substituições. Ao contrário de outras métricas nesta lista, uma pontuação TER mais baixa significa uma melhor tradução.

  • Mecanismo de Trabalho

    O TER calcula o número mínimo de edições necessárias para transformar a tradução automática em uma das traduções de referência. O escore é então normalizado pelo número total de palavras na tradução de referência.

  • Casos de uso

    O TER é útil para avaliar traduções onde o foco é a quantidade de trabalho de pós-edição necessária. É particularmente relevante em cenários onde as traduções serão pós-editadas por humanos.

chrf3 (Caractere n-grama F-score)

  • Visão geral

    chrf3, ou caractere n-grama F-score, é uma métrica que avalia traduções com base em n-gramas de nível de caractere. Ele considera a precisão e o recall, proporcionando um equilíbrio entre os dois.

  • Mecanismo de Trabalho

    chrf3 calcula o F-score, uma média harmônica de precisão e recordação, com base na sobreposição de caracteres n-gramas entre a tradução automática e o texto de referência.

  • Casos de uso

    CHRF3 é vantajoso para idiomas onde a segmentação de palavras é desafiadora ou para idiomas morfologicamente ricos. Também é menos sensível à ordem das palavras do que o BLEU, tornando-o mais flexível na avaliação de traduções com frases diferentes, mas aceitáveis.

Faixas de pontuação

Os valores absolutos das métricas variam significativamente dependendo do par de idiomas, domínio e outros fatores. Portanto, é difícil estabelecer diretrizes gerais para interpretar os valores dos escores e os usuários devem decidir principalmente com base nas diferenças entre o sistema genérico e o personalizado (avaliado em um conjunto de dados idêntico).

Esta tabela pode ser considerada um ponto de partida útil para interpretar os valores das métricas individuais:

  • Pontuações abaixo do limiar de MT de baixa qualidade podem ser indicativas de problemas sérios e tais sistemas normalmente não devem ser implantados sem uma análise mais aprofundada.

  • Escores que excedem o limiar para TM de alta qualidade tipicamente indicam um sistema de muito bom desempenho que produz traduções fluentes e adequadas.

Métrica

Gama

Limiar de MT de baixa qualidade

Limiar MT de alta qualidade

COMETA

Tipicamente 0 a 1

< 0.3

> 0.8

BLEU

0 a 100 anos

< 15

> 50

TER

0 a 100, menor é melhor

> 70

< 30

chrf3

0 a 100 anos

< 20

> 60

Esse artigo foi útil?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.