Directrices para la selección de memoria de traducción
La IA personalizada de Phrase aprovecha las memorias de traducción (TMs) para crear modelos de traducción automática (MT) personalizados que se adhieren a una terminología y estilo específicos, lo que lleva a una mejor calidad de traducción (y, por lo tanto, a tiempos de posedición reducidos) para estos tipos de contenido en comparación con la traducción automática genérica.
El factor más importante que puede influir en la efectividad del proceso de personalización son las memorias de traducción utilizadas. Estas son directrices generales que pueden ayudar a determinar qué datos utilizar para este propósito:
-
Dominio único:
Es mejor si el conjunto de datos se centra en contenido que cubre un solo estilo y terminología. Si el conjunto de datos contiene una mezcla de dominios (por ejemplo, tanto los términos legales de un sitio web como las descripciones de productos), el modelo puede no aprender cuál es el estilo deseado.
-
Tipo de contenido único:
El modelo de MT personalizado se basa en modelos genéricos entrenados con grandes cantidades de datos públicos recopilados de internet. Si la memoria de traducción contiene datos que son bastante similares a los datos genéricos utilizados para construir los modelos genéricos, no habrá mucho que ganar del proceso de personalización.
-
Calidad de los datos:
El modelo asumirá que cada par de oraciones en la memoria de traducción es un ejemplo de la salida que se espera que produzca. La memoria de traducción debe ser de buena calidad, idealmente creada a partir de traducciones humanas profesionales. El proceso de limpieza de datos puede ayudar a filtrar las partes más dañinas del conjunto de datos.
-
Volumen esperado:
Para que la personalización tenga un impacto en términos de retorno de inversión (RoI), el conjunto de datos debe ser representativo de la mayor parte de los datos donde la calidad de MT tendrá más impacto. Por ejemplo, si parte de la salida de MT va a ser poseída por traductores humanos, para maximizar el RoI, los datos deben ser representativos del contenido que será poseído.
Crear un conjunto de datos para curaduría de activos automatizada tiene un proceso ligeramente diferente.
Para crear un conjunto de datos con el propósito de entrenar un motor de MT personalizado, sigue estos pasos:
-
Desde la página , haz clic en Entrenar un motor MT personalizado.
Se abre la página .
-
Proporciona un nombre para el conjunto de datos.
-
Los selectores de idioma permiten varias opciones:
-
Para crear un conjunto de datos de idioma general, selecciona los mismos idiomas de origen y destino en los selectores de idioma y localización.
-
Para crear un conjunto de datos específico de localización, selecciona los idiomas de origen y destino de la primera lista desplegable y luego especifica las localizaciones de origen y destino de la segunda lista desplegable.
También se pueden agregar múltiples localizaciones de destino (es decir, diferentes variantes del mismo idioma) para aprovechar más fuentes de datos.
-
Para crear un conjunto de datos con múltiples localizaciones de origen y destino, selecciona los idiomas de origen y destino de la primera lista desplegable, especifica las localizaciones de origen y destino de la segunda lista desplegable (se pueden agregar diferentes variantes del mismo idioma de destino) y haz clic en + Agregar más pares de localización.
Aparece la ventana .
-
-
Haz clic en Agregar memorias de traducción.
Se abre la página con una funcionalidad de búsqueda
.
-
Para agregar una TM al conjunto de datos, haz clic en el ícono
. La TM se agrega a la columna .
Se pueden agregar múltiples TMs hasta un máximo de 200 TMs y un máximo de 8 millones de segmentos. Un conjunto de datos debería contener idealmente al menos 10,000 segmentos.
Hacer clic en el nombre de la TM presentará la selección en la página de memoria de traducción.
Haz clic en el ícono
para eliminar la TM de la columna .
-
Haz clic en Guardar.
Se abre la página .
-
Revisa los detalles tal como se presentan y si son correctos, haz clic en Continuar.
Se abre la página .
-
Aplica los filtros requeridos y haz clic en Crear.
El conjunto de datos se crea y se añade a la lista en la página de con el estado inicial de y el estado de en la columna de .