Crear un conjunto de datos

El contenido se traduce automáticamente del inglés por Phrase Language AI.

Pautas de selección de memoria de traducción

Phrase Custom IA aprovecha las memoria de traducción (TMs) para Crear modelos de traducción automática (MT) personalizar que se adhieren a una terminología y estilo específicos, lo que conduce a una mejor calidad de traducción (y por lo tanto a tiempos de posedición reducidos) para estos tipos de contenido en comparación con la traducción automática genérica.

El factor más importante que puede influir en la eficacia del proceso de personalizar son las memoria de traducción utilizadas. Estas son pautas generales que pueden Ayuda a determinar qué datos usar para este propósito:

Dominio único:

Es mejor si el conjunto de datos se centra en contenido que cubre un solo estilo y terminología. Si el conjunto de datos contiene una mezcla de dominios (por ejemplo, tanto los términos legales de un sitio web como las descripciones de productos), el modelo puede fallar al aprender cuál es el estilo deseado.
Tipo de contenido único:

El motor de MT personalizar se basa en modelos genéricos entrenados con grandes cantidades de datos públicos recopilados de internet. Si la memoria de traducción contiene datos que son bastante similares a los datos genéricos usados para construir los modelos genéricos, no se obtendrá mucho beneficio del proceso de personalizar.
Calidad de los datos:

El modelo asumirá que cada par de oraciones en la memoria de traducción es un ejemplo de la salida que se espera que produzca. La memoria de traducción debe ser de buena calidad, idealmente creada a partir de traducciones humanas profesionales. La canalización de limpieza de datos puede Ayuda a filtrar las partes más dañinas del conjunto de datos.
Volumen esperado:

Para que la personalizar sea impactante en términos de retorno de inversión, el conjunto de datos debe ser representativo de la mayor parte del contenido donde la calidad de MT tendrá más impacto. Por ejemplo, si parte de la salida de MT se va a someter a posedición por traductores humanos, para maximizar el retorno de inversión, los datos deben ser representativos del contenido que se va a someter a posedición.

Crear un conjunto de datos para curación automatizada de activos tiene un proceso ligeramente diferente.

Para Crear un conjunto de datos con el fin de entrenar un motor de MT personalizar, siga estos pasos:

Desde la página Datasets, haz clic en Entrenar un motor MT Personalizar.

La página Detalles del conjunto de datos se abre.
Proporciona un nombre para el conjunto de datos.
Los selectores de idioma permiten varias opciones:
1. Para Crear un conjunto de datos de idioma general, Seleccionar los mismos idiomas fuente y meta en los selectores de idioma y localización de fuente y meta.
2. Para Crear un conjunto de datos específico de localización, Seleccionar los idiomas fuente y meta de la primera lista desplegable, luego especificar las localizaciones fuente y meta de la segunda lista desplegable.
  
  También se pueden agregar múltiples localizaciones meta (es decir, diferentes variantes del mismo idioma) para aprovechar más fuentes de datos.
3. Para Crear un conjunto de datos con múltiples localizaciones fuente y meta, Seleccionar los idiomas fuente y meta de la primera lista desplegable, especificar las localizaciones fuente y meta de la segunda lista desplegable (se pueden agregar diferentes variantes del mismo idioma meta) y hacer clic en + agregar más pares de localización.
La ventana Datos de entrada aparece.
Haz clic en Agregar memorias de traducción.

La página Elegir memorias de traducción se abre con una funcionalidad de búsqueda .
Para agregar una TM al conjunto de datos, haz clic en el icono . La TM se agrega a la columna Seleccionado.

Se pueden agregar múltiples TM hasta un máximo de 200 TM y un máximo de 8 millones de segmentos. Un conjunto de datos debería contener idealmente al menos 10,000 segmentos.

Hacer clic en el nombre de la TM presentará la selección en la página de memoria de traducción.

Haz clic en el icono para eliminar la TM de la columna Seleccionado.
Haz clic en Guardar.

La página Detalles del conjunto de datos se abre.
Revisa los detalles presentados y, si son correctos, haz clic en continuar.

La página Filtros de limpieza se abre.
Aplica los filtros requeridos y haz clic en crear.

El conjunto de datos se crea y se añade a la lista en la página Datasets con el estado inicial de Cleaning y el estado de Training MT en la columna Created for.