Ao treinar mecanismos de tradução automática, o ingrediente mais importante não é o volume, mas a qualidade dos dados. Limpeza de dados é um problema generoso há muito tempo e limpeza manual é um processo laboratório. Dados limpos levam a treinamentos mais rápidos e modelos de maior qualidade.
O Phrase Custom AI permite adaptar memórias de tradução em conjuntos de dados com a Ajuda de filtros de limpeza alimentados por IA e baseados em regras. Configurações padrão são fornecidas que podem ser adequadas para novos usuários.
O conjunto de filtros disponível inclui filtros baseados em regra e filtros baseados em tradução automática:
-
Baseado em regras
Filtros que operam com regras claramente definidas que são facilmente compreensíveis pelos seres humanos. Esta categoria de filtros inclui
, , extensão do , , , , . -
Baseado em ML
Filtros que analisam o próprio conteúdo do texto para tomar uma decisão, em vez de simplesmente seguir um conjunto fixo de regras. Esta categoria de filtros inclui
incorretos e .
Todos os filtros avaliam versões limpas dos segmentos. Por exemplo, vários espaços são reduzidos para um e códigos do phrase são removidos.
Intervalo de datas
A data de início e fim é incluída com a data da última modificação de um segmento levada em conta.
Texto original e tradução desalinhados
Este filtro permite que os usuários determinem quão bem os segmentos correspondência em termos de significado e similaridade semântica, removendo o pior classificado . O alinhamento do par de frases é medido usando a métrica LASER.
Um mecanismo de IA é usado para verificar se o texto original e a tradução significam a mesma coisa ou quanto do mesmo. A configuração recomendada descartará os 10% dos piores segmentos e manter os 90% dos melhores segmentos.
Configurações avançadas permitem a alteração do alinhamento ou podem ser filtradas com base na pontuação de similaridade bruta usando um número entre 0 e 1 (1 significa alinhamento Concluído). Recomenda-se cautela se utilizar a pontuação bruta de similaridade, pois cada par de idiomas tem uma distribuição diferente de pontuações e o que é considerado uma pontuação boa para um par de idiomas pode ser uma pontuação insatisfatória para outro.
Geralmente segmentos abaixo de 0.5 não são muito bons e segmentos perto ou acima de 1 são segmentos que são iguais em ambos os idiomas.
Exemplos:
{"source": "Super.", "target": "Super.", "similaridade": 1.05}
{"source": "Olá", "tradução": "http://ww.sdsadsa.com", "similarity": 0.3}
Caractere mínimo e contagem de letras
A contagem de caracteres inclui todos os caracteres. Isso inclui todas as letras, espaços em branco, pontuação e símbolos. Para fins de treinamento, pode ser útil descartar segmentos que não contêm nenhuma letra.
A contagem de letras conta apenas letras como no alfabeto inglês, mas também caracteres mais complexos com diacríticos ou caracteres chineses. Um caractere chinês é contado como uma letra, mesmo se representar mais de um caractere. Para idiomas com base em caractere, os valores padrão são 1, mas para idiomas com base em palavras, os valores padrão são 4 (caracteres) e 3 (letras). O valor mínimo é 1 e o valor máximo é 500.
Se manter muitos segmentos curtos em dados (por exemplo, abreviações), mantenha os valores filtrados baixos.
Exemplo:
Comprimento do par de frases
Este filtro remove todos os segmentos com mais de o valor limite definido pelos usuários. A razão para este filtro é que a maioria dos sistemas de tradução automática não treinarão em segmentos que sejam mais longos do que seu limite interno.
Por exemplo, o limite interno do NextMT é de 200 tokens, o que equivale a aproximadamente 100 a 1.000 palavras. Para treinar um mecanismo personalizado com frases mais curtas, defina este valor como menor do que o padrão.
A contagem total de caractere inclui todos os caracteres – letras, espaços em branco e pontuação – de frases de texto texto original e tradução. Considerar o tipo de idioma (por exemplo, chinês e inglês); caso o idioma original do texto não seja semelhante ao CJK e o idioma de tradução seja CJK (ou vice-versa), esse filtro será ignorado.
Proporção de comprimento
Este filtro identifica segmentos em que a extensão é significativamente maior ao comparar o segmento do texto original e o segmento de tradução. Algumas traduções aumentam ou diminuem de comprimento ao traduzir de um texto original para um idioma de tradução. Traduções muito longas ou curtas podem indicar dados de treinamento de baixa qualidade.
Se o idioma original do texto não for CJK e a tradução for (ou vice versa), esse filtro será ignorado.CJK
Alguns idiomas são mais Verbose do que outros, então 200% é um bom padrão. Se o idioma de tradução for semelhante ao idioma do texto original ou se precisar filtrar mais dados, o valor pode ser menor.
Exemplos:
Um idioma é CJK - a relação é 1. Ele não será descartado:
{"source": "Isso é uma frase.", "tradução": "Isso é uma frase.", "ratio": 1}
A tradução alemã tem um comprimento similar ao do texto original inglês e não será descartada:
{"source": "Isso é uma sentença.", "tradução": "Dies ist ein Satz.", "ratio": 1.1}
A tradução alemã é muito mais longa do que o texto original inglês e será descartada:
{"source": "Isso é uma sentença.", "tradução": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}
Não traduzíveis
Não traduzíveis são segmentos em que o segmento do texto original e da tradução são iguais. Exclui todos os pares de frases não traduzíveis em que a tradução permanece inalterada em relação ao texto original.
Duplicados
Cria grupos de segmentos com a mesma frase do texto original. Apenas o melhor segmento é mantido de cada grupo. Portanto, se a frase texto original de um segmento for única, ela será mantida automaticamente. Caso contrário, o segmento com a pontuação de similaridade mais alta é mantido.
Quase duplicados
Ao testar quase duplicados, a frase do texto original (uma versão ligeiramente mais limpa) é normalizada; todos os caracteres sem letra (alguns exemplos: ”,?)!-
) são substituídos por um espaço e todas as letras são renderizadas com letra minúscula.
Usando a frase do texto original normalizado, são criados grupos de segmentos com a mesma frase do texto original normalizado. Apenas o melhor segmento é mantido de cada grupo, assim a frase do texto original normalizado de um segmento é única e é mantida automaticamente. Caso contrário, o segmento com a pontuação de similaridade mais alta é mantido.
identificação do idioma
Um mecanismo de IA é utilizado para identificar o texto original e idioma de tradução com base nas frases. Um segmento só é removido se o mecanismo reconhecer um idioma (texto original/tradução) (por exemplo, frases mais curtas geralmente não são suficientes para o mecanismo determinar um idioma) e o idioma for diferente do esperado.
QPS
O filtro QPS permite remover a sentença de menor qualidade IA no conjunto de dados para garantir que os modelos de IA resultantes sejam treinados com os dados da mais alta qualidade disponíveis. Geralmente, quanto maior a qualidade dos dados de treinamento, melhor o desempenho do modelo personalizado.
O filtro QPS pode ser configurado de duas maneiras:
-
Removendo um percentual especificado de pares de frases com as pontuações QPS mais baixas. A recomendação é de 10%.
-
Selecionando um limite de pontuação. Use as configurações avançadas para eliminar pares de frases que caem abaixo de um limite de QPS ajustável. O ponto de partida recomendado é 50.
Estas duas opções fornecem curador de conjunto de dados automatizado para se alinhar com os objetivos de qualidade dos usuários.