Custom AI

Create a Dataset

El contenido se traduce automáticamente del inglés por Phrase Language AI.

Directrices de selección de memorias de traducción

Phrase Custom AI aprovecha las memorias de traducción (TMS) para crear modelos personalizados de traducción automática (MT) que se adhieren a terminología y estilo específicos, lo que mejora la calidad de la traducción (y, por lo tanto, reduce los tiempos de posedición) para estos tipos de contenido en comparación con la traducción automática genérica.

El factor más importante que puede influir en la eficacia del proceso de personalización son las memorias de traducción usadas. Estas son pautas generales que Ayuda a determinar qué datos usar para este fin:

  • Dominio único:

    Lo mejor es que el conjunto de datos se centre en contenido que cubra un solo estilo y terminología. Si el conjunto de datos contiene una mezcla de dominios (p. ej., tanto los términos legales de un sitio web como las descripciones de los productos), el modelo puede no aprender cuál es el estilo deseado.

  • Tipo único de contenido:

    El modelo MT personalizado se basa en modelos genéricos entrenados con vastas cantidades de datos públicos recopilados de Internet. Si la memoria de traducción contiene datos bastante similares a los datos genéricos utilizados para construir los modelos genéricos, no habrá mucho que ganar con el proceso de personalización.

  • Calidad de datos:

    El modelo asumirá que cada par de frases en la memoria de traducción es un ejemplo de la salida que se esperará que produzca. La memoria de traducción debe ser de buena calidad, idealmente creada a partir de Professional human translations. La cartera de limpieza de datos Ayuda a filtrar las partes más dañinas del conjunto de datos.

  • Volumen esperado:

    Para que la personalización tenga un impacto en términos de ROI, el conjunto de datos debe ser representativo de la mayor parte de los datos en los que la calidad MT tendrá más impacto. Por ejemplo, si parte de la salida de la MT debe ser post-editada por traductores humanos, para maximizar el ROI, los datos deben ser representativos del contenido que será post-editado.

Para crear un conjunto de datos con el fin de entrenar un motor MT personalizado, sigue estos pasos:

  1. En la página Conjuntos de datos, haz clic en Entrenar un motor MT personalizado.

    Se abre la página Detalles del conjunto de datos.

  2. Proporciona un nombre para el conjunto de datos.

  3. Los selectores de idioma permiten varias opciones:

    1. Para crear un conjunto de datos de idiomas generales, selecciona los mismos idiomas fuente y meta en los selectores de idioma fuente y meta y localización.

    2. Para crear un conjunto de datos específico de localización, selecciona los idiomas fuente y meta de la primera lista desplegable y especifica las localizaciones fuente y meta de la segunda lista desplegable.

      También se pueden agregar varias localizaciones meta para aprovechar más fuentes de datos.

    3. Para crear un conjunto de datos con varias localizaciones fuente y meta, selecciona los idiomas fuente y meta de la primera lista desplegable, especifica las localizaciones fuente y meta de la segunda lista desplegable (se pueden agregar varias localizaciones meta) y haz clic en + Agregar más pares de localizaciones.

    Aparece la ventana de datos de entrada.

  4. Haz clic en Agregar memorias de traducción.

    La página Elegir memorias de traducción se abre con un search.jpg de funcionalidad de búsqueda.

  5. Para agregar una TM al conjunto de datos, haga clic en el icono de AddTM.jpg. La TM se agrega a la columna Seleccionada.

    Se pueden añadir varias TMS hasta un máximo de 200 y, idealmente, un conjunto de datos debería contener al menos 10.000 segmentos.

    Al hacer clic en el nombre de la TM se mostrará la selección en la página memoria de traducción.

    Haz clic en el icono de RemoveTM.jpg para eliminar la TM de la columna Seleccionada.

  6. Haz clic en Guardar.

    Se abre la página Detalles del conjunto de datos.

  7. Revisa los detalles tal como se presentan y, si es correcto, haz clic en Continuar.

    Se abre la página Filtros de limpieza.

  8. Aplica los filtros obligatorios y haz clic en Crear.

    El conjunto de datos se crea y añade a la lista de la página Conjuntos de datos con el estado inicial de la limpieza y el estado de la formación MT en la columna Creado para.

Errores comunes:

  • 400 Valor no válido

    Este Error puede aparecer al seleccionar idiomas no compatibles en conjuntos de datos. Custom AI se basa en Phrase NextMT y solo admite los idiomas disponibles en Phrase NextMT.

¿Fue útil este artículo?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.