Custom AI

Filtros de Limpeza

O conteúdo de toda a Central de Ajuda é traduzido automaticamente de inglês pelo Phrase Language AI.

Quando se trata de treinar motores MT, o ingrediente mais importante não é apenas o volume, mas a qualidade dos dados. A limpeza de dados é um problema generalizado de longa data e a limpeza manual é um processo trabalhoso. Dados limpos levam a um treinamento mais rápido e modelos de maior qualidade.

O Phrase Custom AI permite adaptar memórias de tradução em conjuntos de dados com a ajuda de filtros de limpeza baseados em regras e alimentados por IA. São fornecidas configurações padrão que podem ser adequadas para novos usuários.

O conjunto de filtros disponíveis inclui filtros baseados em regras e filtros baseados em ML:

  • Baseado em regras

    Filtros que operam com regras claramente definidas e facilmente compreensíveis pelos seres humanos. Esta categoria de filtro inclui Intervalo de datas, Contagem mínima de caracteres, Comprimento do par de frases, Proporção de comprimento, Não traduzíveis, Duplicatas, Quase duplicatas.

  • Baseado em ML

    Filtros que analisam o conteúdo do próprio texto para tomar uma decisão, em vez de simplesmente seguir um conjunto fixo de regras. Essa categoria de filtro inclui origem e destino desalinhados e identificação de idioma.

Todos os filtros avaliam em versões limpas dos segmentos. Por exemplo, vários espaços são reduzidos a um e as marcas Phrase são removidas.

Intervalo de datas

Tanto a data de término quanto a data de início são incluídas com a data da última modificação de um segmento levada em consideração.

Origem e destino desalinhados

Esse filtro permite que os usuários determinem quão bem os segmentos correspondem em termos de significado e semelhança semântica, removendo os piores classificados. O alinhamento do par de sentenças é medido usando a métrica LASER .

Um mecanismo de IA é usado para verificar se o texto de origem e de destino significam a mesma coisa ou quanto da mesma coisa. A configuração recomendada descarta os 10% piores segmentos, mantendo os 90% melhores segmentos.

As configurações avançadas permitem alterar o alinhamento ou podem ser um filtro com base na pontuação de similaridade bruta usando um número entre 0 e 1 (1 significa alinhamento completo). Recomenda-se cautela se o uso do escore de similaridade bruta, pois cada par de idiomas tem uma distribuição diferente de escores e o que é considerado um bom escore para um par de idiomas pode ser um escore insatisfatório para outro.

Normalmente, segmentos abaixo de 0,5 não são muito bons e segmentos próximos ou acima de 1 são segmentos que são os mesmos em ambos os idiomas.

Exemplos:

{"source": "Super.", "target": "Super.", "similarity": 1.05}

{"source": "Hello", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}

Contagem mínima de caracteres e letras

A contagem de caracteres inclui todos os caracteres. Isso inclui todas as letras, espaços em branco, pontuação e símbolos. Para fins de treinamento, pode ser útil descartar segmentos que não contenham letras.

A contagem de letras conta apenas letras, como no alfabeto inglês, mas também caracteres mais complexos com diacríticos ou caracteres chineses. Um caractere chinês é contado como uma letra, mesmo que represente mais de um caractere. Para idiomas baseados em caracteres, os valores padrão são 1, mas para idiomas baseados em palavras os valores padrão são 4 (caracteres) e 3 (letras). O valor mínimo é 1 e o valor máximo é 500.

Se mantiver muitos segmentos curtos nos dados (por exemplo, siglas), mantenha os valores de filtro baixos.

Exemplo:

A sequência "Olá, Mundo! 1 2 3" tem 19 caracteres e 10 letras.

Comprimento do par de sentenças

Esse filtro remove todos os segmentos que são mais longos do que o valor limite definido pelos usuários. A razão para esse filtro é que a maioria dos sistemas NMT não treinará em segmentos que são mais longos do que seu limite interno. 

Por exemplo, o limite interno do NextMT é de 200 tokens, o que equivale a aproximadamente 100 - 1.000 palavras. Para treinar um mecanismo personalizado em frases mais curtas, defina esse valor como menor que o padrão.

A contagem total de caracteres inclui todos os caracteres - letras, espaços em branco e pontuação - das frases de origem e de destino. Leve em consideração o tipo de idioma (por exemplo, chinês e inglês); se o idioma de origem não for semelhante ao CJK e o idioma de destino for CJK (ou o contrário), esse filtro será ignorado.

Relação de comprimento

Esse filtro identifica segmentos em que o comprimento é significativamente maior ao comparar o segmento de origem e o segmento de destino. Algumas traduções aumentam ou diminuem de comprimento ao traduzir de uma fonte para um idioma de destino. Traduções muito longas ou muito curtas podem indicar dados de treinamento de baixa qualidade.

Se o idioma de origem não for semelhante ao CJK e o idioma de destino for (ou o contrário), esse filtro será ignorado. CJK

Alguns idiomas são mais detalhados do que outros, então 200% é um bom padrão. Se o idioma de destino for semelhante ao idioma de origem ou se mais dados precisarem ser filtrados, o valor poderá ser menor.

Exemplos:

Uma língua é CJK - a proporção é 1. Não será descartado:

{"source": "Esta é uma frase.", "alvo": "这是一个句子。", "ratio": 1}

A tradução alemã é de tamanho comparável à fonte em inglês e não será descartada:

{"source": "Esta é uma frase.", "alvo": "Dies ist ein Satz.", "ratio": 1.1}

A tradução em alemão é muito mais longa do que a fonte em inglês e será descartada:

{"source": "Esta é uma frase.", "alvo": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}

Não traduzíveis

Não-traduzíveis são segmentos onde os segmentos de origem e de destino são os mesmos. Exclui todos os pares de sentenças não traduzíveis em que o texto de destino permanece inalterado em relação ao texto de origem.

Duplicatas

São criados grupos de segmentos que têm a mesma frase de origem. De cada grupo, apenas o melhor segmento é mantido, portanto, se a frase de origem de um segmento for única, ela será automaticamente mantida. Caso contrário. O segmento com maior pontuação de similaridade é mantido.

Quase duplicatas

Ao testar quase duplicatas, a (versão ligeiramente mais limpa de) uma frase de origem é normalizada; todos os caracteres sem letras (alguns exemplos: ",?)! -) são substituídos por um espaço e todas as letras são tornadas minúsculas.

Usando a sentença de origem normalizada, grupos de segmentos que têm a mesma sentença de origem normalizada são criados. De cada grupo, apenas o melhor segmento é mantido para que a sentença de origem normalizada de um segmento seja exclusiva e seja mantida automaticamente. Caso contrário. O segmento com maior pontuação de similaridade é mantido.

Identificação linguística

Um mecanismo de IA é usado para identificar a linguagem de origem e de destino com base nas frases. Um segmento só é removido se o mecanismo reconhecer um idioma (origem/destino) (por exemplo, frases mais curtas geralmente não são suficientes para o mecanismo determinar um idioma) e o idioma for diferente do esperado.

QPS

O filtro QPS torna possível remover os pares de sentenças de menor qualidade no conjunto de dados para garantir que os modelos de IA resultantes sejam treinados nos dados de mais alta qualidade disponíveis. Geralmente, quanto maior a qualidade dos dados de treinamento, melhor é o desempenho do modelo personalizado.

O filtro QPS pode ser configurado de duas maneiras:

  1. Remoção de uma porcentagem especificada de pares de sentenças com os escores mais baixos do QPS. A recomendação é de 10%.

  2. Selecionando um limite de pontuação. Use as configurações avançadas para eliminar pares de sentenças abaixo de um limite QPS ajustável. O ponto de partida recomendado é 50.

Essas duas opções fornecem curadoria automatizada de conjuntos de dados para alinhar com os objetivos de qualidade dos usuários.

Esse artigo foi útil?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.