La curaduría de memorias de traducción es un problema persistente y la limpieza manual es un proceso laborioso. Limpiar las memorias de traducción conduce a mejores referencias para los lingüistas y a una mayor calidad de la traducción automática, lo cual es especialmente relevante para Frase NextMT, dada su avanzada capacidad para aprovechar activos lingüísticos, como memorias de traducción y glosarios.
Para crear un conjunto de datos con el propósito de utilizar una TM curada en TMS, sigue estos pasos:
-
En la página Conjuntos de datos, haz clic en Limpiar una memoria de traducción.
Se abre la página .
-
Proporciona un nombre para el conjunto de datos.
-
Los selectores de idioma permiten varias opciones:
-
Para crear un conjunto de datos de idioma general, selecciona los mismos idiomas de origen y destino en los selectores de idioma de origen y destino y localización.
-
Para crear un conjunto de datos específico de localización, selecciona los idiomas de origen y destino de la primera lista desplegable y luego especifica las localizaciones de origen y destino de la segunda lista desplegable.
También se pueden agregar múltiples localizaciones de destino (es decir, diferentes variantes del mismo idioma) para aprovechar más fuentes de datos.
-
Para crear un conjunto de datos con múltiples localizaciones de origen y destino, selecciona los idiomas de origen y destino de la primera lista desplegable, especifica las localizaciones de origen y destino de la segunda lista desplegable (se pueden agregar diferentes variantes del mismo idioma de destino) y haz clic en + Agregar más pares de localización.
Aparece la ventana .
-
-
Haz clic en Agregar memorias de traducción.
Se abre la página con una funcionalidad de búsqueda
.
-
Para agregar una TM al conjunto de datos, haz clic en el ícono
. La TM se agrega a la columna .
Se pueden agregar múltiples TMs hasta un máximo de 200 TMs y un máximo de 8 millones de segmentos. Un conjunto de datos debería contener idealmente al menos 10,000 segmentos.
Hacer clic en el nombre de la TM presentará la selección en la página de memoria de traducción.
Haz clic en el ícono
para eliminar la TM de la columna .
-
Haz clic en Guardar.
Se abre la página .
-
Revisa los detalles tal como se presentan y si son correctos, haz clic en Continuar.
Se abre la página .
-
Aplica los filtros requeridos y haz clic en Crear.
El conjunto de datos se crea y se añade a la lista en la página con el estado inicial de y el estado de en la columna .
La IA personalizada de Phrase permite curar memorias de traducción con la ayuda de filtros de limpieza basados en IA y reglas. Se proporcionan configuraciones predeterminadas que pueden ser adecuadas para nuevos usuarios.
Este proceso preserva los metadatos de segmento de TM originales y etiquetas de TM lo que permite a los usuarios mantener la ventaja de TM al usar las TMs limpias en TMS.
El conjunto de filtros disponibles incluye tanto filtros basados en reglas como filtros basados en ML:
-
Basados en reglas
Filtros que operan con reglas claramente definidas que son fácilmente comprensibles por los humanos. Esta categoría de filtros incluye , , , , , , .
-
ML-based
Filtros que analizan el contenido del texto en sí para tomar una decisión, en lugar de simplemente seguir un conjunto fijo de reglas. Esta categoría de filtros incluye , y .
Rango de fechas
Excluye segmentos fuera de las fechas establecidas. Las fechas de inicio y fin se incluyen junto con la fecha de la última modificación de un segmento.
Fuente y meta desalineadas
Este filtro determina qué tan bien coinciden los segmentos en términos de significado y similitud semántica, eliminando los peor valorados. La alineación de pares de oraciones se mide utilizando la métrica LASER.
Se utiliza un motor de IA para verificar que el texto fuente y el texto meta signifiquen lo mismo o cuánto de lo mismo. La configuración recomendada descarta el 10% de los peores segmentos mientras mantiene el 90% de los mejores segmentos.
Las configuraciones avanzadas permiten cambiar la alineación o pueden ser un filtro basado en la puntuación de similitud bruta utilizando un número entre 0 y 1 (1 significa alineación completa). Se aconseja precaución si se utiliza la puntuación de similitud bruta, ya que cada combinación de idiomas tiene una distribución diferente de puntuaciones y lo que se considera una buena puntuación para una combinación de idiomas puede ser una puntuación insatisfactoria para otra.
Típicamente, los segmentos por debajo de 0.5 no son muy buenos y los segmentos cercanos o superiores a 1 son segmentos que son iguales en ambos idiomas.
Ejemplos:
Conteo mínimo de caracteres y letras
Conteo de caracteres incluye todos los caracteres. Esto incluye todas las letras, espacios en blanco, y puntuación y símbolos. Para fines de entrenamiento, puede ser útil descartar segmentos que no contengan letras.
Conteo de letras cuenta solo letras como en el alfabeto inglés, pero también caracteres más complejos con diacríticos o caracteres chinos. Un carácter chino se cuenta como una letra, incluso si representa más de un carácter. Para lenguajes basados en caracteres, los valores predeterminados son 1, pero para lenguajes basados en palabras, los valores predeterminados son 4 (caracteres) y 3 (letras). El valor mínimo es 1 y el valor máximo es 500.
Si se mantienen muchos segmentos cortos en los datos (por ejemplo, acrónimos), mantenga los valores de filtro bajos.
Ejemplo:
La cadena "¡Hola, Mundo! 1 2 3" tiene 19 caracteres y 10 letras.
Longitud de la pareja de oraciones
Este filtro elimina todos los segmentos que son más largos que el valor umbral establecido por los usuarios.
El recuento total de caracteres incluye todos los caracteres: letras, espacios en blanco y puntuación, de ambas oraciones, fuente y objetivo. Tenga en cuenta el tipo de idioma (por ejemplo, chino e inglés); si el idioma fuente no es similar a CJK y el idioma objetivo es CJK (o viceversa), este filtro será ignorado.
Relación de longitud
Este filtro identifica segmentos donde la longitud es significativamente mayor al comparar el segmento fuente y el segmento objetivo. Algunas traducciones aumentan o disminuyen en longitud al traducir de un idioma fuente a un idioma objetivo. Traducciones demasiado largas o demasiado cortas pueden indicar segmentos de baja calidad.
Si el idioma fuente no es similar a CJK y el idioma objetivo es (o viceversa), este filtro será ignorado.CJK
Algunos idiomas son más verbosos que otros, por lo que el 200% es un buen valor predeterminado. Si el idioma objetivo es similar al idioma fuente, o se necesita filtrar más datos, el valor puede ser más bajo.
Ejemplos:
Un idioma es CJK - la relación es 1. No será descartado:
{"source": "Esta es una oración.", "target": "这是一个句子。", "ratio": 1}
La traducción al alemán tiene una longitud comparable a la fuente en inglés y no será descartada:
{"source": "Esta es una oración.", "target": "Dies ist ein Satz.", "ratio": 1.1}
La traducción al alemán es mucho más larga que la fuente en inglés y será descartada:
{"source": "Esta es una oración.", "target": "Esta es una oración con rellenos innecesarios adicionales.", "ratio": 3.1}
Non-translatables
Los no traducibles son segmentos donde las oraciones de origen y destino son las mismas. Excluye todos los pares de oraciones no traducibles donde el texto de destino permanece sin cambios respecto al texto de origen.
Duplicados
Se crean grupos de segmentos que tienen la misma oración de origen. De cada grupo, solo se conserva el mejor segmento, por lo que si la oración de origen de un segmento es única, se conserva automáticamente. De lo contrario, se conserva el segmento con la puntuación de similitud más alta.
Casi duplicados
Al probar para casi duplicados, se normaliza una (versión ligeramente más limpia de) la oración de origen; todos los caracteres que no son letras (algunos ejemplos: “,?)!-) se reemplazan por un espacio y todas las letras se convierten en minúsculas.
Usando la oración de origen normalizada, se crean grupos de segmentos que tienen la misma oración de origen normalizada. De cada grupo, solo se conserva el mejor segmento, por lo que la oración de origen normalizada de un segmento es única y se conserva automáticamente. De lo contrario, se conserva el segmento con la puntuación de similitud más alta.
Identificación de idioma
Se utiliza un motor de IA para identificar el idioma de origen y destino basado en las oraciones. Un segmento solo se elimina si el motor reconoce un idioma (de origen/destino) (como ejemplo, las oraciones más cortas a menudo no son suficientes para que el motor determine un idioma) y el idioma es diferente al esperado.
QPS
El filtro QPS hace posible eliminar los pares de oraciones de menor calidad en la memoria de traducción para asegurar que los segmentos resultantes sean de la más alta calidad.
El filtro QPS se puede configurar de dos maneras:
-
Eliminando un porcentaje especificado de pares de oraciones con las puntuaciones QPS más bajas. La recomendación es del 10%.
-
Seleccionando un umbral de puntuación. Utiliza la configuración avanzada para eliminar pares de oraciones que caen por debajo de un umbral de QPS ajustable. El punto de partida recomendado es 50.
Estas dos opciones proporcionan curación automatizada de la memoria de traducción para alinearse con los objetivos de calidad de los usuarios.
El proceso de limpieza de la memoria de traducción, que puede tardar varias horas, debe estar completo antes de que se pueda usar una TM curada.
Para usar una TM curada en TMS, sigue estos pasos:
Esto activará un proceso de exportación de conjunto de datos que tomará solo unos minutos. La TM curada resultante en formato .TMX puede ser luego subida a TMS como una nueva TM curada de hasta 1 Gb de tamaño.
Si se han realizado dos o más procesos de limpieza en la misma TM, se pueden acceder a diferentes versiones en la pestaña .