Custom AI

Cleaning Filters

O conteúdo de toda a Central de Ajuda é traduzido automaticamente de inglês pelo Phrase Language AI.

Quando se trata de treinar mecanismos de MT, o ingrediente mais importante não é apenas o volume, mas a qualidade dos dados. Limpar dados é um problema persistente de longa data e a limpeza manual é um processo trabalhoso. Dados limpos levam a um treinamento mais rápido e modelos de maior qualidade.

Phrase Custom AI permite adaptar memórias de tradução em conjuntos de dados com a ajuda de filtros de limpeza baseados em IA e regras. Configurações padrão são fornecidas, que podem ser adequadas para novos usuários.

O conjunto de filtros disponíveis inclui tanto filtros baseados em regras quanto filtros baseados em ML:

  • Baseado em regras

    Filtros que operam com regras claramente definidas que são facilmente compreensíveis por humanos. Esta categoria de filtro inclui Intervalo de datas, Contagem mínima de caracteres, Comprimento do par de frases, Razão de comprimento, Não traduzíveis, Duplicatas, Quase duplicatas.

  • Baseado em ML

    Filtros que analisam o conteúdo do texto em si para tomar uma decisão, em vez de simplesmente seguir um conjunto fixo de regras. Esta categoria de filtro inclui Fonte e destino desalinhados e Identificação de idioma.

Todos os filtros avaliam versões limpas dos segmentos. Por exemplo, múltiplos espaços são reduzidos a um e Phrase tags são removidos.

Intervalo de datas

Tanto a data de início quanto a data de término são incluídas, levando em conta a data da última modificação de um segmento.

Fonte e destino desalinhados

Este filtro permite que os usuários determinem quão bem os segmentos correspondem em termos de significado e similaridade semântica, removendo os pior avaliados. O alinhamento do par de frases é medido usando a métrica LASER.

Um mecanismo de IA é usado para verificar se o texto de origem e o texto de destino significam a mesma coisa ou quão semelhante é. A configuração recomendada descarta os 10% piores segmentos enquanto mantém os 90% melhores segmentos.

Configurações avançadas permitem alterar o alinhamento ou podem ser um filtro baseado na pontuação de similaridade bruta usando um número entre 0 e 1 (1 significando alinhamento completo). Cuidado é aconselhado ao usar a pontuação de similaridade bruta, pois cada par de idiomas tem uma distribuição diferente de pontuações e o que é considerado uma boa pontuação para um par de idiomas pode ser uma pontuação insatisfatória para outro.

Normalmente, segmentos abaixo de 0,5 não são muito bons e segmentos próximos ou acima de 1 são segmentos que são os mesmos em ambos os idiomas.

Exemplos:

{"source": "Super.", "target": "Super.", "similarity": 1.05}

{"source": "Olá", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}

Contagem mínima de caracteres e letras

Contagem de caracteres inclui todos os caracteres. Isso inclui todas as letras, espaços em branco, pontuação e símbolos. Para fins de treinamento, pode ser útil descartar segmentos que não contêm letras.

Contagem de letras conta apenas letras, como no alfabeto inglês, mas também caracteres mais complexos com diacríticos ou caracteres chineses. Um caractere chinês é contado como uma letra, mesmo que represente mais de um caractere. Para idiomas baseados em caracteres, os valores padrão são 1, mas para idiomas baseados em palavras, os valores padrão são 4 (caracteres) e 3 (letras). O valor mínimo é 1 e o valor máximo é 500.

Se mantiver muitos segmentos curtos nos dados (por exemplo, siglas), mantenha os valores do filtro baixos.

Exemplo:

A string "Olá, Mundo! 1 2 3" tem 19 caracteres e 10 letras.

Comprimento do par de frases

Este filtro remove todos os segmentos que são mais longos do que o valor de limite definido pelos usuários. A razão para este filtro é que a maioria dos sistemas NMT não treinará realmente em segmentos que são mais longos do que seu limite interno. 

Por exemplo, NextMT’s limite interno é 200 tokens, o que equivale a aproximadamente 100 - 1.000 palavras. Para treinar um mecanismo personalizado em frases mais curtas, defina este valor abaixo do padrão.

A contagem total de caracteres inclui todos os caracteres - letras, espaços em branco e pontuação - das frases de origem e destino. Leve em consideração o tipo de idioma (por exemplo, chinês e inglês); se o idioma de origem não for semelhante ao CJK e o idioma de destino for CJK (ou vice-versa), este filtro será ignorado.

Relação de comprimento

Este filtro identifica segmentos onde o comprimento é significativamente maior ao comparar o segmento de origem e o segmento de destino. Algumas traduções aumentam ou diminuem em comprimento ao traduzir de um idioma de origem para um idioma de destino. Traduções muito longas ou muito curtas podem indicar dados de treinamento de baixa qualidade.

Se o idioma de origem não for semelhante ao CJK e o idioma de destino for (ou vice-versa), este filtro será ignorado.CJK

Alguns idiomas são mais verbosos do que outros, então 200% é um bom padrão. Se o idioma de destino for semelhante ao idioma de origem, ou mais dados precisarem ser filtrados, o valor pode ser menor.

Exemplos:

Um idioma é CJK - a relação é 1. Não será descartado:

{"source": "Esta é uma frase.", "target": "这是一个句子。", "ratio": 1}

A tradução em alemão é de comprimento comparável ao texto original em inglês e não será descartada:

{"source": "Esta é uma frase.", "tradução": "Dies ist ein Satz.", "razão": 1.1}

A tradução em alemão é muito mais longa do que o texto original em inglês e será descartada:

{"source": "Esta é uma frase.", "tradução": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "razão": 3.1}

Não traduzíveis

Não traduzíveis são segmentos onde os textos de origem e destino são os mesmos. Exclui todos os pares de frases não traduzíveis onde o texto de destino permanece inalterado em relação ao texto de origem.

Duplicatas

Grupos de segmentos são criados que têm a mesma frase de origem. De cada grupo, apenas o melhor segmento é mantido, então se a frase de origem de um segmento for única, ela é automaticamente mantida. Caso contrário, o segmento com a maior pontuação de similaridade é mantido.

Quase duplicatas

Ao testar para quase duplicatas, a (versão ligeiramente mais limpa da) frase de origem é normalizada; todos os caracteres que não são letras (alguns exemplos: “,?)!-) são substituídos por um espaço e todas as letras são convertidas para minúsculas.

Usando a frase de origem normalizada, grupos de segmentos que têm a mesma frase de origem normalizada são criados. De cada grupo, apenas o melhor segmento é mantido, então a frase de origem normalizada de um segmento é única e é automaticamente mantida. Caso contrário, o segmento com a maior pontuação de similaridade é mantido.

Identificação de idioma

Um mecanismo de IA é usado para identificar o idioma de origem e destino com base nas frases. Um segmento é removido apenas se o mecanismo reconhecer um idioma (de origem/destino) (como exemplo, frases mais curtas muitas vezes não são suficientes para o mecanismo determinar um idioma) e o idioma for diferente do esperado.

QPS

O filtro QPS torna possível remover os pares de frases de menor qualidade no conjunto de dados para garantir que os modelos de IA resultantes sejam treinados com os dados de maior qualidade disponíveis. Geralmente, quanto maior a qualidade dos dados de treinamento, melhor o modelo personalizado se desempenha.

O filtro QPS pode ser configurado de duas maneiras:

  1. Removendo uma porcentagem especificada de pares de frases com as menores pontuações de QPS. A recomendação é 10%.

  2. Selecionando um limite de pontuação. Use as configurações avançadas para eliminar pares de frases que ficam abaixo de um limite de QPS ajustável. O ponto de partida recomendado é 50.

Essas duas opções fornecem curadoria automatizada do conjunto de dados para alinhar com os objetivos de qualidade dos usuários.

Esse artigo foi útil?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.