Criar um Conjunto de Dados

O conteúdo de toda a Central de Ajuda é traduzido automaticamente de inglês pelo Phrase Language AI.

Diretrizes de Seleção de Memória de Tradução

A IA Personalizada de Frases aproveita as memórias de tradução (TMs) para criar modelos de tradução automática (MT) personalizados que aderem a terminologias e estilos específicos, levando a uma qualidade de tradução melhorada (e, assim, a tempos de pós-edição reduzidos) para esses tipos de conteúdo em comparação com a tradução automática genérica.

O fator mais importante que pode influenciar a eficácia do processo de personalização são as memórias de tradução utilizadas. Estas são diretrizes gerais que podem ajudar a determinar quais dados usar para esse propósito:

Domínio único:

É melhor se o conjunto de dados se concentrar em conteúdo que abrange um único estilo e terminologia. Se o conjunto de dados contiver uma mistura de domínios (por exemplo, tanto os termos legais de um site quanto as descrições de produtos), o modelo pode falhar em aprender qual é o estilo desejado.
Tipo de conteúdo único:

O modelo de MT personalizado é construído sobre modelos genéricos treinados em grandes quantidades de dados públicos coletados da internet. Se a memória de tradução contiver dados que são bastante semelhantes aos dados genéricos usados para construir os modelos genéricos, não haverá muito a ganhar com o processo de personalização.
Qualidade dos dados:

O modelo assumirá que cada par de frases na memória de tradução é um exemplo da saída que se espera produzir. A memória de tradução deve ser de boa qualidade, idealmente criada a partir de traduções humanas profissionais. O pipeline de limpeza de dados pode ajudar a filtrar as partes mais prejudiciais do conjunto de dados.
Volume esperado:

Para que a personalização tenha impacto em termos de RoI, o conjunto de dados precisa ser representativo da maior parte dos dados onde a qualidade da MT terá mais impacto. Por exemplo, se parte da saída da MT for pós-editada por tradutores humanos, para maximizar o RoI, os dados precisam ser representativos do conteúdo que será pós-editado.

Criar um conjunto de dados para curadoria automatizada de ativos tem um processo ligeiramente diferente.

Para criar um conjunto de dados com o propósito de treinar um mecanismo de MT personalizado, siga estas etapas:

Na página Conjuntos de dados, clique em Treinar um mecanismo MT personalizado.

A página Detalhes do conjunto de dados é aberta.
Forneça um nome para o conjunto de dados.
Os seletores de idioma permitem várias opções:
1. Para criar um conjunto de dados de idioma geral, selecione os mesmos idiomas de origem e destino nos seletores de idioma e local.
2. Para criar um conjunto de dados específico de local, selecione os idiomas de origem e destino na primeira lista suspensa e, em seguida, especifique os locais de origem e destino na segunda lista suspensa.
  
  Múltiplos locais de destino (ou seja, diferentes variantes do mesmo idioma) para aproveitar mais fontes de dados também podem ser adicionados.
3. Para criar um conjunto de dados com múltiplos locais de origem e destino, selecione os idiomas de origem e destino na primeira lista suspensa, especifique os locais de origem e destino na segunda lista suspensa (variantes diferentes do mesmo idioma de destino podem ser adicionadas) e clique em + Adicionar mais pares de locais.
A janela Dados de entrada aparece.
Clique em Adicionar memórias de tradução.

A página Escolher memórias de tradução é aberta com uma funcionalidade de busca .
Para adicionar uma TM ao conjunto de dados, clique no ícone . A TM é adicionada à coluna Selecionados.

Múltiplas TMs podem ser adicionadas até um máximo de 200 TMs e um máximo de 8 milhões de segmentos. Um conjunto de dados deve conter idealmente pelo menos 10.000 segmentos.

Clicar no nome da TM apresentará a seleção na página de memória de tradução.

Clique no ícone para remover a TM da coluna Selecionados.
Clique em Gravar.

A página Detalhes do conjunto de dados é aberta.
Revise os detalhes conforme apresentados e, se estiver correto, clique em Continuar.

A página Filtros de limpeza é aberta.
Aplique os filtros necessários e clique criar.

O conjunto de dados é criado e adicionado à lista na página Conjuntos de Dados com o estado inicial de Limpeza e o estado de Treinamento de tradução automática na coluna Criado para.