A curadoria de memórias de tradução é um problema persistente e a limpeza manual é um processo trabalhoso. Limpar memórias de tradução leva a melhores referências para linguistas e a uma tradução automática de maior qualidade, o que é especialmente relevante para Phrase NextMT, dadas suas capacidades avançadas para aproveitar ativos linguísticos, como memórias de tradução e glossários.
Para criar um conjunto de dados com o propósito de usar uma TM curada em TMS, siga estas etapas:
-
Na página Conjuntos de Dados, clique em Limpar uma memória de tradução.
A página
é aberta. -
Forneça um nome para o conjunto de dados.
-
Os seletores de idioma permitem várias opções:
-
Para criar um conjunto de dados de idioma geral, selecione os mesmos idiomas de origem e destino nos seletores de idioma de origem e destino.
-
Para criar um conjunto de dados específico de local, selecione os idiomas de origem e destino na primeira lista suspensa e, em seguida, especifique os locais de origem e destino na segunda lista suspensa.
Múltiplos locais de destino para aproveitar mais fontes de dados também podem ser adicionados.
-
Para criar um conjunto de dados com múltiplos locais de origem e destino, selecione os idiomas de origem e destino na primeira lista suspensa, especifique os locais de origem e destino na segunda lista suspensa (múltiplos locais de destino podem ser adicionados) e clique em + Adicionar mais pares de locais.
A janela
aparece. -
-
Clique em Adicionar memórias de tradução.
A página
é aberta com uma funcionalidade de busca.
-
Para adicionar uma TM ao conjunto de dados, clique no ícone
. A TM é adicionada à coluna .
Múltiplas TMs podem ser adicionadas a um máximo de 200 TMs e um máximo de 8 milhões de segmentos. Um conjunto de dados deve conter idealmente pelo menos 10.000 segmentos.
Clicar no nome da TM apresentará a seleção na página de memória de tradução.
Clique no ícone
para remover a memória de tradução da coluna .
-
Clique em Gravar.
A página
é aberta. -
Revise os detalhes conforme apresentados e, se estiver correto, clique em Continuar.
A página
é aberta. -
Aplique os filtros necessários e clique em Criar.
O conjunto de dados é criado e adicionado à lista na página
com o status inicial de e o status de na coluna .
Phrase Custom AI permite a curadoria de memórias de tradução com a ajuda de filtros de limpeza baseados em IA e regras. Configurações padrão são fornecidas, que podem ser adequadas para novos usuários.
Esse processo preserva os metadados do segmento original da TM e as tags de TM, o que permite que os usuários mantenham a alavancagem da TM ao usar as TMs limpas em TMS.
O conjunto de filtros disponíveis inclui filtros baseados em regras e filtros baseados em ML:
-
Baseado em regras
Filtros que operam com regras claramente definidas que são facilmente compreensíveis por humanos. Esta categoria de filtro inclui
, , , , , , . -
Baseado em ML
Filtros que analisam o conteúdo do texto em si para tomar uma decisão, em vez de simplesmente seguir um conjunto fixo de regras. Esta categoria de filtro inclui
e .
Intervalo de datas
Tanto a data de início quanto a data de término estão incluídas, considerando a data da última modificação de um segmento.
Fonte e alvo desalinhados
Este filtro permite que os usuários determinem quão bem os segmentos correspondem em termos de significado e similaridade semântica, removendo os pior classificados. O alinhamento de pares de frases é medido usando a métrica LASER.
Um mecanismo de IA é usado para verificar se o texto original e a tradução significam a mesma coisa ou quão semelhantes são. A configuração recomendada descarta os 10% piores segmentos enquanto mantém os 90% melhores segmentos.
Configurações avançadas permitem alterar o alinhamento ou podem ser um filtro baseado na pontuação de similaridade bruta usando um número entre 0 e 1 (1 significando alinhamento completo). Cuidado é aconselhado ao usar a pontuação de similaridade bruta, pois cada par de idiomas tem uma distribuição diferente de pontuações e o que é considerado uma boa pontuação para um par de idiomas pode ser uma pontuação insatisfatória para outro.
Normalmente, segmentos abaixo de 0,5 não são muito bons e segmentos próximos ou acima de 1 são segmentos que são os mesmos em ambos os idiomas.
Exemplos:
Contagem mínima de caracteres e letras
Contagem de caracteres inclui todos os caracteres. Isso inclui todas as letras, espaços em branco e pontuação e símbolos. Para fins de treinamento, pode ser útil descartar segmentos que não contêm letras.
Contagem de letras conta apenas letras, como no alfabeto inglês, mas também caracteres mais complexos com diacríticos ou caracteres chineses. Um caractere chinês é contado como uma letra, mesmo que represente mais de um caractere. Para idiomas baseados em caracteres, os valores padrão são 1, mas para idiomas baseados em palavras, os valores padrão são 4 (caracteres) e 3 (letras). O valor mínimo é 1 e o valor máximo é 500.
Se mantiver muitos segmentos curtos nos dados (por exemplo, siglas), mantenha os valores do filtro baixos.
Exemplo:
A string "Olá, Mundo! 1 2 3"
tem 19 caracteres e 10 letras.
Comprimento do par de frases
Este filtro remove todos os segmentos que são mais longos do que o valor limite definido pelos usuários.
A contagem total de caracteres inclui todos os caracteres - letras, espaços em branco e pontuação - das sentenças de origem e destino. Leve em consideração o tipo de idioma (por exemplo, chinês e inglês); se o idioma de origem não for semelhante ao CJK e o idioma de destino for CJK (ou vice-versa), este filtro será ignorado.
Relação de comprimento
Este filtro identifica segmentos onde o comprimento é significativamente maior ao comparar o segmento de origem e o segmento de destino. Algumas traduções aumentam ou diminuem em comprimento ao traduzir de um idioma de origem para um idioma de destino. Traduções muito longas ou muito curtas podem indicar segmentos de baixa qualidade.
Se o idioma de origem não for semelhante ao CJK e o idioma de destino for (ou vice-versa), este filtro será ignorado.CJK
Alguns idiomas são mais verbosos do que outros, então 200% é um bom padrão. Se o idioma de destino for semelhante ao idioma de origem, ou mais dados precisarem ser filtrados, o valor pode ser menor.
Exemplos:
Um idioma é CJK - a relação é 1. Não será descartado:
{"source": "Esta é uma frase.", "target": "这是一个句子。", "ratio": 1}
A tradução em alemão tem comprimento comparável ao da fonte em inglês e não será descartada:
{"source": "Esta é uma frase.", "target": "Dies ist ein Satz.", "ratio": 1.1}
A tradução em alemão é muito mais longa do que a fonte em inglês e será descartada:
{"source": "Esta é uma frase.", "target": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}
Não traduzíveis
Não traduzíveis são segmentos onde os segmentos de origem e destino são os mesmos. Exclui todos os pares de frases não traduzíveis onde o texto de destino permanece inalterado em relação ao texto de origem.
Duplicatas
Grupos de segmentos são criados que têm a mesma frase de origem. De cada grupo, apenas o melhor segmento é mantido, então se a frase de origem de um segmento for única, ela é automaticamente mantida. Caso contrário, o segmento com a maior pontuação de similaridade é mantido.
Quase duplicatas
Ao testar para quase duplicatas, a (versão ligeiramente mais limpa de) uma frase de origem é normalizada; todos os caracteres que não são letras (alguns exemplos: “,?)!-
) são substituídos por um espaço e todas as letras são convertidas para minúsculas.
Usando a frase de origem normalizada, grupos de segmentos que têm a mesma frase de origem normalizada são criados. De cada grupo, apenas o melhor segmento é mantido, então a frase de origem normalizada de um segmento é única e é automaticamente mantida. Caso contrário, o segmento com a maior pontuação de similaridade é mantido.
Identificação de idioma
Um mecanismo de IA é usado para identificar o idioma de origem e destino com base nas frases. Um segmento só é removido se o mecanismo reconhecer um idioma (de origem/destino) (como exemplo, frases mais curtas muitas vezes não são suficientes para o mecanismo determinar um idioma) e o idioma for diferente do esperado.
QPS
O filtro QPS torna possível remover os pares de frases de menor qualidade na memória de tradução para garantir que os segmentos resultantes sejam da mais alta qualidade.
O filtro QPS pode ser configurado de duas maneiras:
-
Removendo uma porcentagem especificada de pares de frases com as menores pontuações de QPS. A recomendação é 10%.
-
Selecionando um limite de pontuação. Use as configurações avançadas para eliminar pares de sentenças que ficam abaixo de um limite de QPS ajustável. O ponto de partida recomendado é 50.
Essas duas opções fornecem curadoria automatizada da memória de tradução para alinhar com os objetivos de qualidade dos usuários.
O processo de limpeza da memória de tradução, que pode levar várias horas, deve ser concluído antes que uma TM curada possa ser usada.
Para usar uma TM curada no TMS, siga estas etapas:
Isso acionará um processo de exportação de conjunto de dados que levará apenas alguns minutos. A TM curada resultante em formato .TMX pode ser então carregada no TMS como uma nova TM curada de até 1 Gb de tamanho.
Se dois ou mais processos de limpeza foram realizados na mesma TM, diferentes versões podem ser acessadas na aba
.