Limpeza de Filtros

O conteúdo de toda a Central de Ajuda é traduzido automaticamente de inglês pelo Phrase Language AI.

Os aspectos mais importantes do treinamento de motores de tradução automática não são apenas o volume, mas a qualidade dos dados. Limpar dados é um problema comum e a limpeza manual é trabalhosa. Dados limpos levam a um treinamento mais rápido e a modelos de maior qualidade.

A IA personalizada do Phrase adapta memórias de tradução em conjuntos de dados com a ajuda de filtros de limpeza baseados em IA e regras. As configurações padrão fornecidas devem ser adequadas para novos usuários.

O conjunto de filtros disponíveis inclui tanto filtros baseados em regras quanto filtros baseados em ML:

Baseado em regras

Filtros que operam com regras claramente definidas que são facilmente compreensíveis por humanos. Esta categoria de filtro inclui Intervalo de datas, Contagem mínima de caracteres, Comprimento do par de frases, Relação de comprimento, Não traduzíveis, Duplicatas, Quase duplicatas.
Baseado em ML

Filtros que analisam o conteúdo do texto em si para tomar uma decisão, em vez de simplesmente seguir um conjunto fixo de regras. Esta categoria de filtro inclui Fonte e alvo desalinhados e Identificação de idioma.

Todos os filtros avaliam versões limpas dos segmentos; entre outras coisas, múltiplos espaços são reduzidos a um e os tags do Phrase são removidos.

Intervalo de datas

Exclui segmentos fora das datas definidas. As datas de início e fim são incluídas junto com a data da última modificação de um segmento.

Fonte e alvo desalinhados

Este filtro determina quão bem os segmentos correspondem em termos de significado e similaridade semântica, removendo os pior avaliados. O alinhamento do par de frases é medido usando a métrica LASER.

Um mecanismo de IA é usado para verificar se o texto original e a tradução significam a mesma coisa ou quão semelhantes são. A configuração recomendada descarta os 10% piores segmentos enquanto mantém os 90% melhores segmentos.

Configurações avançadas permitem alterar o alinhamento ou podem ser um filtro baseado na pontuação de similaridade bruta usando um número entre 0 e 1 (1 significando alinhamento completo). Cuidado é aconselhado ao usar a pontuação de similaridade bruta, pois cada par de idiomas tem uma distribuição diferente de pontuações e o que é considerado uma boa pontuação para um par de idiomas pode ser uma pontuação insatisfatória para outro.

Normalmente, segmentos abaixo de 0,5 não são muito bons e segmentos próximos ou acima de 1 são segmentos que são os mesmos em ambos os idiomas.

Exemplos:

{"source": "Super.", "target": "Super.", "similarity": 1.05}

{"source": "Olá", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}

Contagem mínima de caracteres e letras

Contagem de caracteres inclui todos os caracteres. Isso inclui todas as letras, espaços em branco, pontuação e símbolos. Para fins de treinamento, pode ser útil descartar segmentos que não contenham letras.

Contagem de letras conta apenas letras, como no alfabeto inglês, mas também caracteres mais complexos com diacríticos ou caracteres chineses. Um caractere chinês é contado como uma letra, mesmo que represente mais de um caractere. Para idiomas baseados em caracteres, os valores padrão são 1, mas para idiomas baseados em palavras, os valores padrão são 4 (caracteres) e 3 (letras). O valor mínimo é 1 e o valor máximo é 500.

Se mantiver muitos segmentos curtos nos dados (por exemplo, siglas), mantenha os valores do filtro baixos.

Exemplo:

A string "Olá, Mundo! 1 2 3" tem 19 caracteres e 10 letras.

Comprimento da frase

Este filtro remove todos os segmentos que são mais longos do que o valor limite definido pelos usuários. A razão para este filtro é que a maioria dos sistemas NMT não treinará efetivamente em segmentos que são mais longos do que seu limite interno.

Por exemplo, o limite interno do NextMT é de 200 tokens, o que equivale a aproximadamente 100 - 1.000 palavras. Para treinar um mecanismo personalizado em frases mais curtas, defina este valor abaixo do padrão.

A contagem total de caracteres inclui todos os caracteres - letras, espaços em branco e pontuação - tanto das frases de origem quanto das de destino. Leve em consideração o tipo de idioma (por exemplo, chinês e inglês); se a língua de origem não for semelhante ao CJK e a língua de destino for CJK (ou vice-versa), este filtro será ignorado.

Proporção de comprimento

Este filtro identifica segmentos onde o comprimento é significativamente maior ao comparar o segmento de origem e o segmento de destino. Algumas traduções aumentam ou diminuem em comprimento ao traduzir de uma língua de origem para uma língua de destino. Traduções muito longas ou muito curtas podem indicar dados de treinamento de baixa qualidade.

Se a língua de origem não for semelhante ao CJK e a língua de destino for (ou vice-versa), este filtro será ignorado.CJK

Algumas línguas são mais verbosas do que outras, então 200% é um bom padrão. Se a língua de destino for semelhante à língua de origem, ou se mais dados precisarem ser filtrados, o valor pode ser menor.

Exemplos:

Uma língua é CJK - a proporção é 1. Não será descartado:

{"source": "Esta é uma frase.", "target": "这是一个句子。", "ratio": 1}

A tradução em alemão tem comprimento comparável ao da fonte em inglês e não será descartada:

{"source": "Esta é uma frase.", "target": "Dies ist ein Satz.", "ratio": 1.1}

A tradução em alemão é muito mais longa do que a fonte em inglês e será descartada:

{"source": "Esta é uma frase.", "target": "Esta é uma frase com preenchimentos desnecessários adicionais.", "ratio": 3.1}

Não traduzíveis

Não traduzíveis são segmentos onde as partes de origem e destino são as mesmas. Exclui todos os pares de frases não traduzíveis onde o texto de destino permanece inalterado em relação ao texto de origem.

Duplicatas

Grupos de segmentos são criados que têm a mesma frase de origem. De cada grupo, apenas o melhor segmento é mantido, então se a frase de origem de um segmento for única, ela é automaticamente mantida. Caso contrário, o segmento com a maior pontuação de similaridade é mantido.

Quase duplicatas

Ao testar para quase duplicatas, a (versão ligeiramente mais limpa da) frase de origem é normalizada; todos os caracteres não alfabéticos (alguns exemplos: “,?)!-) são substituídos por um espaço e todas as letras são convertidas para minúsculas.

Usando a frase de origem normalizada, grupos de segmentos que têm a mesma frase de origem normalizada são criados. De cada grupo, apenas o melhor segmento é mantido, então a frase de origem normalizada de um segmento é única e é automaticamente mantida. Caso contrário, o segmento com a maior pontuação de similaridade é mantido.

Identificação de idioma

Um mecanismo de IA é usado para identificar o idioma de origem e destino com base nas frases. Um segmento só é removido se o mecanismo reconhecer um idioma (de origem/destino) (como exemplo, frases mais curtas muitas vezes não são suficientes para o mecanismo determinar um idioma) e o idioma for diferente do esperado.

QPS

O filtro QPS remove os pares de frases de menor qualidade no conjunto de dados para garantir que os modelos de IA resultantes sejam treinados com os dados de maior qualidade disponíveis. Geralmente, quanto maior a qualidade dos dados de treinamento, melhor o modelo personalizado se desempenha.

O filtro QPS pode ser configurado de duas maneiras:

Removendo uma porcentagem especificada de pares de frases com as menores pontuações QPS. A recomendação é 10%.
Selecionando um limite de pontuação. Use as configurações avançadas para eliminar pares de frases que ficam abaixo de um limite de QPS ajustável. O ponto de partida recomendado é 50.

Essas duas opções fornecem curadoria automatizada de conjuntos de dados para alinhar com os objetivos de qualidade dos usuários.