Diretrizes de Seleção de Memória de Tradução
A IA Personalizada de Frases utiliza memórias de tradução (TMs) para criar modelos de tradução automática (MT) personalizados que seguem uma terminologia e estilo específicos, levando a uma qualidade de tradução melhorada (e, assim, a tempos de pós-edição reduzidos) para esses tipos de conteúdo em comparação com a tradução automática genérica.
O fator mais importante que pode influenciar a eficácia do processo de personalização são as memórias de tradução utilizadas. Estas são diretrizes gerais que podem ajudar a determinar quais dados usar para esse propósito:
-
Domínio único:
É melhor se o conjunto de dados se concentrar em conteúdo que abrange um único estilo e terminologia. Se o conjunto de dados contiver uma mistura de domínios (por exemplo, tanto os termos legais de um site quanto as descrições de produtos), o modelo pode falhar em aprender qual é o estilo desejado.
-
Tipo de conteúdo único:
O modelo de MT personalizado é construído sobre modelos genéricos treinados em grandes quantidades de dados públicos coletados da internet. Se a memória de tradução contiver dados que são bastante semelhantes aos dados genéricos usados para construir os modelos genéricos, não haverá muito a ganhar com o processo de personalização.
-
Qualidade dos dados:
O modelo assumirá que cada par de frases na memória de tradução é um exemplo da saída que se espera produzir. A memória de tradução deve ser de boa qualidade, idealmente criada a partir de traduções humanas profissionais. O pipeline de limpeza de dados pode ajudar a filtrar as partes mais prejudiciais do conjunto de dados.
-
Volume esperado:
Para que a personalização tenha impacto em termos de RoI, o conjunto de dados precisa ser representativo da maior parte dos dados onde a qualidade da MT terá mais impacto. Por exemplo, se parte da saída da MT for pós-editada por tradutores humanos, para maximizar o RoI, os dados precisam ser representativos do conteúdo que será pós-editado.
Criar um conjunto de dados para curadoria automatizada de ativos tem um processo ligeiramente diferente.
Para criar um conjunto de dados com o propósito de treinar um mecanismo de MT personalizado, siga estes passos:
-
Na página , clique em Treinar um mecanismo de MT personalizado.
A página é aberta.
-
Forneça um nome para o conjunto de dados.
-
Os seletores de idioma permitem várias opções:
-
Para criar um conjunto de dados de idioma geral, selecione os mesmos idiomas de origem e destino nos seletores de idioma e local.
-
Para criar um conjunto de dados específico de local, selecione os idiomas de origem e destino na primeira lista suspensa e, em seguida, especifique os locais de origem e destino na segunda lista suspensa.
Vários locais de destino (ou seja, diferentes variantes do mesmo idioma) para aproveitar mais fontes de dados também podem ser adicionados.
-
Para criar um conjunto de dados com vários locais de origem e destino, selecione os idiomas de origem e destino na primeira lista suspensa, especifique os locais de origem e destino na segunda lista suspensa (diferentes variantes do mesmo idioma de destino podem ser adicionadas) e clique em + Adicionar mais pares de locais.
A janela aparece.
-
-
Clique em Adicionar memórias de tradução.
A página é aberta com uma funcionalidade de busca
.
-
Para adicionar uma TM ao conjunto de dados, clique no ícone
. A TM é adicionada à coluna .
Várias TMs podem ser adicionadas, com um máximo de 200 TMs e um máximo de 8 milhões de segmentos. Um conjunto de dados deve conter idealmente pelo menos 10.000 segmentos.
Clicar no nome da TM apresentará a seleção na página de memória de tradução.
Clique no ícone
para remover a TM da coluna .
-
Clique em Gravar.
A página é aberta.
-
Revise os detalhes conforme apresentados e, se estiverem corretos, clique em Continuar.
A página é aberta.
-
Aplique os filtros necessários e clique criar.
O conjunto de dados é criado e adicionado à lista na página com o estado inicial de e o estado de na coluna .