Custom AI

Curadoria de ativos de idiomas

O conteúdo de toda a Central de Ajuda é traduzido automaticamente de inglês pelo Phrase Language AI.

A curadoria de memórias de tradução é um problema generalizado de longa data e a limpeza manual é um processo trabalhoso. Memórias de tradução limpas levam a melhores referências para linguistas e tradução automática de maior qualidade, o que é especialmente relevante para o Phrase NextMT, dadas suas capacidades avançadas para alavancar ativos linguísticos, como memórias de tradução e glossários.

Criar um conjunto de dados para LAC

Para criar um conjunto de dados, execute estas etapas:

  1. Clique em + Novo conjunto de dados.

    A página de detalhes do Conjunto de Dados é aberta.

  2. Forneça um nome para o conjunto de dados.

  3. Os seletores de idioma permitem várias opções:

    1. Para criar um conjunto de dados de idioma geral, selecione os mesmos idiomas de origem e de destino nos seletores de idioma e localidade de origem e destino.

    2. Para criar um conjunto de dados específico de localidade, selecione os idiomas de origem e de destino na primeira lista suspensa e especifique as localidades de origem e de destino na segunda lista suspensa.

      Várias localidades de destino para aproveitar mais fontes de dados também podem ser adicionadas.

    3. Para criar um conjunto de dados com várias localidades de origem e destino, selecione os idiomas de origem e de destino na primeira lista suspensa, especifique as localidades de origem e de destino na segunda lista suspensa (várias localidades de destino podem ser adicionadas) e clique em + Adicionar mais pares de localidades.

    A janela Fontes de dados é exibida.

  4. Clique em Adicionar memórias de tradução.

    A página Escolher memórias de tradução é aberta com uma funcionalidade search.jpg de pesquisa é aberta.

  5. Para adicionar uma MT ao conjunto de dados, clique no ícone . A MT é adicionada à coluna Selecionado .

    Várias TMs podem ser adicionadas a um máximo de 10 e um conjunto de dados deve idealmente conter pelo menos 10.000 segmentos.

    Clicar no nome TM apresentará a seleção na página de memória de tradução.

    Clique no RemoveTM.jpg ícone para remover a MT da coluna Selecionado.

  6. Clique em Salvar.

    A página de detalhes do Conjunto de Dados é aberta.

  7. Revise os detalhes conforme apresentados e, se estiver correto, clique em Continuar.

    A página Filtros de limpeza é aberta.

  8. Aplique os filtros necessários e clique em Criar.

    O conjunto de dados é criado e adicionado à lista na página Conjuntos de Dados com o status inicial de Limpeza.

Filtros de Limpeza para LAC

O Phrase Custom AI permite a curadoria de memórias de tradução com a ajuda de filtros de limpeza baseados em regras e alimentados por IA. São fornecidas configurações padrão que podem ser adequadas para novos usuários.

Esse processo preservará os metadados originais do segmento TM, o que permite que os usuários mantenham a alavancagem da MT ao usar as TMs limpas no TMS.

O conjunto de filtros disponíveis inclui filtros baseados em regras e filtros baseados em ML:

  • Baseado em regras

    Filtros que operam com regras claramente definidas e facilmente compreensíveis pelos seres humanos. Esta categoria de filtro inclui Intervalo de datas, Contagem mínima de caracteres, Comprimento do par de frases, Proporção de comprimento, Não traduzíveis, Duplicatas, Quase duplicatas.

  • Baseado em ML

    Filtros que analisam o conteúdo do próprio texto para tomar uma decisão, em vez de simplesmente seguir um conjunto fixo de regras. Essa categoria de filtro inclui origem e destino desalinhados e identificação de idioma.

Intervalo de datas

Tanto a data de término quanto a data de início são incluídas com a data da última modificação de um segmento levada em consideração.

Origem e destino desalinhados

Esse filtro permite que os usuários determinem quão bem os segmentos correspondem em termos de significado e semelhança semântica, removendo os piores classificados. O alinhamento do par de sentenças é medido usando a métrica LASER .

Um mecanismo de IA é usado para verificar se o texto de origem e de destino significam a mesma coisa ou quanto da mesma coisa. A configuração recomendada descarta os 10% piores segmentos, mantendo os 90% melhores segmentos.

As configurações avançadas permitem alterar o alinhamento ou podem ser um filtro com base na pontuação de similaridade bruta usando um número entre 0 e 1 (1 significa alinhamento completo). Recomenda-se cautela se o uso do escore de similaridade bruta, pois cada par de idiomas tem uma distribuição diferente de escores e o que é considerado um bom escore para um par de idiomas pode ser um escore insatisfatório para outro.

Normalmente, segmentos abaixo de 0,5 não são muito bons e segmentos próximos ou acima de 1 são segmentos que são os mesmos em ambos os idiomas.

Exemplos:

A sequência "Olá, Mundo! 1 2 3" tem 19 caracteres e 10 letras.

Comprimento do par de sentenças

Esse filtro remove todos os segmentos que são mais longos do que o valor limite definido pelos usuários.

A contagem total de caracteres inclui todos os caracteres - letras, espaços em branco e pontuação - das frases de origem e de destino. Leve em consideração o tipo de idioma (por exemplo, chinês e inglês); se o idioma de origem não for semelhante ao CJK e o idioma de destino for CJK (ou o contrário), esse filtro será ignorado.

Relação de comprimento

Esse filtro identifica segmentos em que o comprimento é significativamente maior ao comparar o segmento de origem e o segmento de destino. Algumas traduções aumentam ou diminuem de comprimento ao traduzir de uma fonte para um idioma de destino. Traduções muito longas ou muito curtas podem indicar segmentos de baixa qualidade.

Se o idioma de origem não for semelhante ao CJK e o idioma de destino for (ou o contrário), esse filtro será ignorado. CJK

Alguns idiomas são mais detalhados do que outros, então 200% é um bom padrão. Se o idioma de destino for semelhante ao idioma de origem ou se mais dados precisarem ser filtrados, o valor poderá ser menor.

Exemplos:

Uma língua é CJK - a proporção é 1. Não será descartado:

{"source": "Esta é uma frase.", "alvo": "这是一个句子。", "ratio": 1}

A tradução alemã é de tamanho comparável à fonte em inglês e não será descartada:

{"source": "Esta é uma frase.", "alvo": "Dies ist ein Satz.", "ratio": 1.1}

A tradução em alemão é muito mais longa do que a fonte em inglês e será descartada:

{"source": "Esta é uma frase.", "alvo": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}

Não traduzíveis

Não-traduzíveis são segmentos onde os segmentos de origem e de destino são os mesmos. Exclui todos os pares de sentenças não traduzíveis em que o texto de destino permanece inalterado em relação ao texto de origem.

Duplicatas

São criados grupos de segmentos que têm a mesma frase de origem. De cada grupo, apenas o melhor segmento é mantido, portanto, se a frase de origem de um segmento for única, ela será automaticamente mantida. Caso contrário. O segmento com maior pontuação de similaridade é mantido.

Quase duplicatas

Ao testar quase duplicatas, a (versão ligeiramente mais limpa de) uma frase de origem é normalizada; todos os caracteres sem letras (alguns exemplos: ",?)! -) são substituídos por um espaço e todas as letras são tornadas minúsculas.

Usando a sentença de origem normalizada, grupos de segmentos que têm a mesma sentença de origem normalizada são criados. De cada grupo, apenas o melhor segmento é mantido para que a sentença de origem normalizada de um segmento seja exclusiva e seja mantida automaticamente. Caso contrário. O segmento com maior pontuação de similaridade é mantido.

Identificação linguística

Um mecanismo de IA é usado para identificar a linguagem de origem e de destino com base nas frases. Um segmento só é removido se o mecanismo reconhecer um idioma (origem/destino) (por exemplo, frases mais curtas geralmente não são suficientes para o mecanismo determinar um idioma) e o idioma for diferente do esperado.

QPS

O filtro QPS torna possível remover os pares de sentenças de menor qualidade na memória de tradução para garantir que os segmentos resultantes sejam da mais alta qualidade.

O filtro QPS pode ser configurado de duas maneiras:

  1. Remoção de uma porcentagem especificada de pares de sentenças com os escores mais baixos do QPS. A recomendação é de 10%.

  2. Selecionando um limite de pontuação. Use as configurações avançadas para eliminar pares de sentenças abaixo de um limite QPS ajustável. O ponto de partida recomendado é 50.

Essas duas opções fornecem curadoria de memória de tradução automatizada para se alinhar aos objetivos de qualidade dos usuários.

Usando TMs curadas no TMS

O processo de limpeza da memória de tradução, que pode levar várias horas, deve ser concluído antes que uma MT curada possa ser usada.

Para usar uma MT selecionada no TMS, execute estas etapas:

  1. Clique no more.jpeg e selecione de download.

    A janela Download é aberta.

  2. Selecione Download (.tmx).

Isso acionará um processo de exportação de conjunto de dados que levará apenas alguns minutos. A TM resultante foi curada em . O formato TMX pode ser então carregado no TMS como um novo TM com curadoria.

Se dois ou mais processos de limpeza tiverem sido executados na mesma MT, versões diferentes poderão ser acessadas na guia Histórico de limpeza .

Esse artigo foi útil?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.