Directrices de selección de memorias de traducción
Phrase Custom AI aprovecha las memorias de traducción (TMS) para crear modelos personalizados de traducción automática (MT) que se adhieren a terminología y estilo específicos, lo que mejora la calidad de la traducción (y, por lo tanto, reduce los tiempos de posedición) para estos tipos de contenido en comparación con la traducción automática genérica.
El factor más importante que puede influir en la eficacia del proceso de personalización son las memorias de traducción usadas. Estas son pautas generales que Ayuda a determinar qué datos usar para este fin:
-
Dominio único:
Lo mejor es que el conjunto de datos se centre en contenido que cubra un solo estilo y terminología. Si el conjunto de datos contiene una mezcla de dominios (p. ej., tanto los términos legales de un sitio web como las descripciones de los productos), el modelo puede no aprender cuál es el estilo deseado.
-
Tipo único de contenido:
El modelo MT personalizado se basa en modelos genéricos entrenados con vastas cantidades de datos públicos recopilados de Internet. Si la memoria de traducción contiene datos bastante similares a los datos genéricos utilizados para construir los modelos genéricos, no habrá mucho que ganar con el proceso de personalización.
-
Calidad de datos:
El modelo asumirá que cada par de frases en la memoria de traducción es un ejemplo de la salida que se esperará que produzca. La memoria de traducción debe ser de buena calidad, idealmente creada a partir de Professional human translations. La cartera de limpieza de datos Ayuda a filtrar las partes más dañinas del conjunto de datos.
-
Volumen esperado:
Para que la personalización tenga un impacto en términos de ROI, el conjunto de datos debe ser representativo de la mayor parte de los datos en los que la calidad MT tendrá más impacto. Por ejemplo, si parte de la salida de la MT debe ser post-editada por traductores humanos, para maximizar el ROI, los datos deben ser representativos del contenido que será post-editado.
Para crear un conjunto de datos con el fin de entrenar un motor MT personalizado, sigue estos pasos:
-
En la página Entrenar un motor MT personalizado.
, haz clic enSe abre la página
de datos. -
Proporciona un nombre para el conjunto de datos.
-
Los selectores de idioma permiten varias opciones:
-
Para crear un conjunto de datos de idiomas generales, selecciona los mismos idiomas fuente y meta en los selectores de idioma fuente y meta y localización.
-
Para crear un conjunto de datos específico de localización, selecciona los idiomas fuente y meta de la primera lista desplegable y especifica las localizaciones fuente y meta de la segunda lista desplegable.
También se pueden agregar varias localizaciones meta para aprovechar más fuentes de datos.
-
Para crear un conjunto de datos con varias localizaciones fuente y meta, selecciona los idiomas fuente y meta de la primera lista desplegable, especifica las localizaciones fuente y meta de la segunda lista desplegable (se pueden agregar varias localizaciones meta) y haz clic en + Agregar más pares de localizaciones.
Aparece la ventana de
. -
-
Haz clic en Agregar memorias de traducción.
La página
se abre con unde funcionalidad de búsqueda.
-
Para agregar una TM al conjunto de datos, haga clic en el icono de
. La TM se agrega a la columna .
Se pueden añadir varias TMS hasta un máximo de 200 y, idealmente, un conjunto de datos debería contener al menos 10.000 segmentos.
Al hacer clic en el nombre de la TM se mostrará la selección en la página memoria de traducción.
Haz clic en el icono de
para eliminar la TM de la columna .
-
Haz clic en Guardar.
Se abre la página
de datos. -
Revisa los detalles tal como se presentan y, si es correcto, haz clic en Continuar.
Se abre la página
. -
Aplica los filtros obligatorios y haz clic en Crear.
El conjunto de datos se crea y añade a la lista de la página
con el estado inicial de y el estado de la en la columna .
Errores comunes:
-
400 Valor no válido
Este Error puede aparecer al seleccionar idiomas no compatibles en conjuntos de datos. Custom AI se basa en Phrase NextMT y solo admite los idiomas disponibles en Phrase NextMT.