Custom AI

Crear un conjunto de datos

El contenido se traduce automáticamente del inglés por Phrase Language AI.

Directrices para la selección de memoria de traducción

La IA personalizada de Phrase aprovecha las memorias de traducción (TMs) para crear modelos de traducción automática (MT) personalizados que se adhieren a una terminología y estilo específicos, lo que lleva a una mejor calidad de traducción (y, por lo tanto, a tiempos de posedición reducidos) para estos tipos de contenido en comparación con la traducción automática genérica.

El factor más importante que puede influir en la efectividad del proceso de personalización son las memorias de traducción utilizadas. Estas son directrices generales que pueden ayudar a determinar qué datos utilizar para este propósito:

  • Dominio único:

    Es mejor si el conjunto de datos se centra en contenido que cubre un solo estilo y terminología. Si el conjunto de datos contiene una mezcla de dominios (por ejemplo, tanto los términos legales de un sitio web como las descripciones de productos), el modelo puede no aprender cuál es el estilo deseado.

  • Tipo de contenido único:

    El modelo de MT personalizado se basa en modelos genéricos entrenados con grandes cantidades de datos públicos recopilados de internet. Si la memoria de traducción contiene datos que son bastante similares a los datos genéricos utilizados para construir los modelos genéricos, no habrá mucho que ganar del proceso de personalización.

  • Calidad de los datos:

    El modelo asumirá que cada par de oraciones en la memoria de traducción es un ejemplo de la salida que se espera que produzca. La memoria de traducción debe ser de buena calidad, idealmente creada a partir de traducciones humanas profesionales. El proceso de limpieza de datos puede ayudar a filtrar las partes más dañinas del conjunto de datos.

  • Volumen esperado:

    Para que la personalización tenga un impacto en términos de retorno de inversión (RoI), el conjunto de datos debe ser representativo de la mayor parte de los datos donde la calidad de MT tendrá más impacto. Por ejemplo, si parte de la salida de MT va a ser poseída por traductores humanos, para maximizar el RoI, los datos deben ser representativos del contenido que será poseído.

Crear un conjunto de datos para curaduría de activos automatizada tiene un proceso ligeramente diferente.

Para crear un conjunto de datos con el propósito de entrenar un motor de MT personalizado, sigue estos pasos:

  1. Desde la página Conjuntos de datos, haz clic en Entrenar un motor MT personalizado.

    Se abre la página Detalles del conjunto de datos.

  2. Proporciona un nombre para el conjunto de datos.

  3. Los selectores de idioma permiten varias opciones:

    1. Para crear un conjunto de datos de idioma general, selecciona los mismos idiomas de origen y destino en los selectores de idioma y localización.

    2. Para crear un conjunto de datos específico de localización, selecciona los idiomas de origen y destino de la primera lista desplegable y luego especifica las localizaciones de origen y destino de la segunda lista desplegable.

      También se pueden agregar múltiples localizaciones de destino (es decir, diferentes variantes del mismo idioma) para aprovechar más fuentes de datos.

    3. Para crear un conjunto de datos con múltiples localizaciones de origen y destino, selecciona los idiomas de origen y destino de la primera lista desplegable, especifica las localizaciones de origen y destino de la segunda lista desplegable (se pueden agregar diferentes variantes del mismo idioma de destino) y haz clic en + Agregar más pares de localización.

    Aparece la ventana Datos de entrada.

  4. Haz clic en Agregar memorias de traducción.

    Se abre la página Elegir memorias de traducción con una funcionalidad de búsqueda Search.

  5. Para agregar una TM al conjunto de datos, haz clic en el ícono Add TM. La TM se agrega a la columna Seleccionados.

    Se pueden agregar múltiples TMs hasta un máximo de 200 TMs y un máximo de 8 millones de segmentos. Un conjunto de datos debería contener idealmente al menos 10,000 segmentos.

    Hacer clic en el nombre de la TM presentará la selección en la página de memoria de traducción.

    Haz clic en el ícono Remove TM para eliminar la TM de la columna Seleccionados.

  6. Haz clic en Guardar.

    Se abre la página Detalles del conjunto de datos.

  7. Revisa los detalles tal como se presentan y si son correctos, haz clic en Continuar.

    Se abre la página Filtros de limpieza.

  8. Aplica los filtros requeridos y haz clic en Crear.

    El conjunto de datos se crea y se añade a la lista en la página de Conjuntos de datos con el estado inicial de Limpiando y el estado de Entrenando MT en la columna de Creado para.

¿Fue útil este artículo?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.