Custom AI

Criar um conjunto de dados

O conteúdo de toda a Central de Ajuda é traduzido automaticamente de inglês pelo Phrase Language AI.

Diretrizes de seleção de memória de tradução

A IA personalizada de frases aproveita as memórias de tradução (TMs) para criar modelos de tradução automática (MT) personalizados que aderem a terminologia e estilo específicos, levando a uma melhor qualidade de tradução (e, portanto, tempos de pós-edição reduzidos) para esses tipos de conteúdo quando comparados à tradução automática genérica.

O fator mais importante que pode influenciar a eficácia do processo de personalização são as memórias de tradução utilizadas. Estas são diretrizes gerais que podem ajudar a determinar quais dados usar para essa finalidade:

  • Domínio único:

    É melhor que o conjunto de dados se concentre no conteúdo que abrange um único estilo e terminologia. Se o conjunto de dados contiver uma mistura de domínios (por exemplo, os termos legais de um site e as descrições do produto), o modelo pode falhar em saber qual é o estilo desejado.

  • Tipo de conteúdo exclusivo:

    O modelo MT personalizado se baseia em modelos genéricos treinados em grandes quantidades de dados públicos coletados da internet. Se a memória de tradução contiver dados bastante semelhantes aos dados genéricos usados para construir os modelos genéricos, não haverá muito a ganhar com o processo de personalização.

  • Qualidade dos dados:

    O modelo assumirá que cada par de sentenças na memória de tradução é um exemplo da saída que se espera que produza. A memória de tradução deve ser de boa qualidade, idealmente criada a partir de traduções humanas profissionais. O pipeline de limpeza de dados pode ajudar a filtrar as partes mais prejudiciais do conjunto de dados.

  • Volume esperado:

    Para que a personalização seja impactante em termos de RoI, o conjunto de dados precisa ser representativo da maior parte dos dados onde a qualidade da MT terá mais impacto. Por exemplo, se parte da saída MT deve ser pós-editada por tradutores humanos, para maximizar o RoI os dados precisam ser representativos do conteúdo que será pós-editado.

Para criar um conjunto de dados, execute estas etapas:

  1. Clique em + Novo conjunto de dados.

    A página de detalhes do Conjunto de Dados é aberta.

  2. Forneça um nome para o conjunto de dados.

  3. Os seletores de idioma permitem várias opções:

    1. Para criar um conjunto de dados de idioma geral, selecione os mesmos idiomas de origem e de destino nos seletores de idioma e localidade de origem e destino.

    2. Para criar um conjunto de dados específico de localidade, selecione os idiomas de origem e de destino na primeira lista suspensa e especifique as localidades de origem e de destino na segunda lista suspensa.

      Várias localidades de destino para aproveitar mais fontes de dados também podem ser adicionadas.

    3. Para criar um conjunto de dados com várias localidades de origem e destino, selecione os idiomas de origem e de destino na primeira lista suspensa, especifique as localidades de origem e de destino na segunda lista suspensa (várias localidades de destino podem ser adicionadas) e clique em + Adicionar mais pares de localidades.

    A janela Fontes de dados é exibida.

  4. Clique em Adicionar memórias de tradução.

    A página Escolher memórias de tradução é aberta com uma funcionalidade search.jpg de pesquisa é aberta.

  5. Para adicionar uma MT ao conjunto de dados, clique no ícone . A MT é adicionada à coluna Selecionado .

    Várias TMs podem ser adicionadas a um máximo de 10 e um conjunto de dados deve idealmente conter pelo menos 10.000 segmentos.

    Clicar no nome TM apresentará a seleção na página de memória de tradução.

    Clique no RemoveTM.jpg ícone para remover a MT da coluna Selecionado.

  6. Clique em Salvar.

    A página de detalhes do Conjunto de Dados é aberta.

  7. Revise os detalhes conforme apresentados e, se estiver correto, clique em Continuar.

    A página Filtros de limpeza é aberta.

  8. Aplique os filtros necessários e clique em Criar.

    O conjunto de dados é criado e adicionado à lista na página Conjuntos de Dados com o status inicial de Limpeza.

Esse artigo foi útil?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.