Los aspectos más importantes del entrenamiento de motores de MT no son solo el volumen, sino la calidad de los datos. La limpieza de datos es un problema generalizado y la limpieza manual es laboriosa. Los datos limpios conducen a un entrenamiento más rápido y a modelos de mayor calidad.
La frase personalizar IA adapta las memorias de traducción en conjuntos de datos con la ayuda de filtros de limpieza basados en IA y reglas. Se proporcionan configuraciones predeterminadas que deberían ser adecuadas para nuevos usuarios.
El conjunto de filtros disponibles incluye tanto filtros basados en reglas como filtros basados en ML:
-
Basados en reglas
Filtros que operan con reglas claramente definidas que son fácilmente comprensibles por los humanos. Esta categoría de filtros incluye , , , , , , .
-
ML-based
Filtros que analizan el contenido del texto en sí para tomar una decisión, en lugar de simplemente seguir un conjunto fijo de reglas. Esta categoría de filtros incluye , y .
Todos los filtros evalúan en versiones limpias de los segmentos; entre otras cosas, múltiples espacios se reducen a uno y se eliminan las etiquetas de la frase.
Rango de fechas
Excluye segmentos fuera de las fechas establecidas. Las fechas de inicio y fin se incluyen junto con la fecha de última modificación de un segmento.
Fuente y meta desalineadas
Este filtro determina qué tan bien coinciden los segmentos en términos de significado y similitud semántica, eliminando los peor valorados. La alineación de pares de oraciones se mide utilizando la métrica LASER.
Un motor de IA se utiliza para verificar que el texto fuente y el texto meta significan lo mismo o cuánto de lo mismo hay. La configuración recomendada descarta el 10% de los segmentos peores mientras mantiene el 90% de los segmentos mejores.
Las configuraciones avanzadas permiten cambiar la alineación o pueden ser un filtro basado en la puntuación de similitud bruta utilizando un número entre 0 y 1 (1 significa alineación completa). Se aconseja precaución si se utiliza la puntuación de similitud bruta, ya que cada combinación de idiomas tiene una distribución diferente de puntuaciones y lo que se considera una buena puntuación para una combinación de idiomas puede ser una puntuación insatisfactoria para otra.
Típicamente, los segmentos por debajo de 0.5 no son muy buenos y los segmentos cercanos o superiores a 1 son segmentos que son iguales en ambos idiomas.
Ejemplos:
{"source": "Super.", "target": "Super.", "similarity": 1.05}
{"source": "Hello", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}
Conteo mínimo de caracteres y letras
El conteo de caracteres incluye todos los caracteres. Esto incluye todas las letras, espacios en blanco, y puntuación y símbolos. Para fines de entrenamiento, puede ser útil descartar segmentos que no contengan letras.
El conteo de letras cuenta solo letras como en el alfabeto inglés, pero también caracteres más complejos con diacríticos o caracteres chinos. Un carácter chino se cuenta como una letra, incluso si representa más de un carácter. Para los idiomas basados en caracteres, los valores predeterminados son 1, pero para los idiomas basados en palabras, los valores predeterminados son 4 (caracteres) y 3 (letras). El valor mínimo es 1 y el valor máximo es 500.
Si se mantienen muchos segmentos cortos en los datos (por ejemplo, acrónimos), mantén los valores del filtro bajos.
Ejemplo:
Par de oraciones de longitud
Este filtro elimina todos los segmentos que son más largos que el valor umbral establecido por los usuarios. La razón de este filtro es que la mayoría de los sistemas NMT no entrenarán realmente en segmentos que son más largos que su umbral interno.
Por ejemplo, el umbral interno de NextMT es de 200 tokens, lo que equivale aproximadamente a 100 - 1,000 palabras. Para entrenar un motor personalizado en oraciones más cortas, establece este valor por debajo del predeterminado.
El recuento total de caracteres incluye todos los caracteres - letras, espacios en blanco y puntuación - de ambas oraciones, la fuente y la meta. Ten en cuenta el tipo de idioma (por ejemplo, chino e inglés); si el idioma fuente no es similar a CJK y el idioma meta es CJK (o viceversa), este filtro será ignorado.
Relación de longitud
Este filtro identifica segmentos donde la longitud es significativamente mayor al comparar el segmento fuente y el segmento meta. Algunas traducciones aumentan o disminuyen en longitud al traducir de un idioma fuente a un idioma meta. Traducciones demasiado largas o demasiado cortas pueden indicar datos de entrenamiento de baja calidad.
Si el idioma fuente no es similar a CJK y el idioma meta es (o viceversa), este filtro será ignorado.CJK
Algunos idiomas son más verbosos que otros, por lo que un 200% es un buen valor predeterminado. Si el idioma meta es similar al idioma fuente, o se necesita filtrar más datos, el valor puede ser más bajo.
Ejemplos:
Un idioma es CJK - la relación es 1. No será descartado:
{"source": "Esta es una oración.", "target": "这是一个句子。", "ratio": 1}
La traducción al alemán tiene una longitud comparable a la fuente en inglés y no será descartada:
{"source": "Esta es una oración.", "target": "Dies ist ein Satz.", "ratio": 1.1}
La traducción al alemán es mucho más larga que la fuente en inglés y será descartada:
{"source": "Esta es una oración.", "target": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}
Non-translatables
Los no traducibles son segmentos donde la fuente y el objetivo son iguales. Excluye todos los pares de oraciones no traducibles donde el texto objetivo permanece sin cambios respecto al texto fuente.
Duplicados
Se crean grupos de segmentos que tienen la misma oración fuente. De cada grupo, solo se conserva el mejor segmento, por lo que si la oración fuente de un segmento es única, se conserva automáticamente. De lo contrario, se conserva el segmento con la puntuación de similitud más alta.
Casi duplicados
Al probar para casi duplicados, se normaliza la (versión ligeramente más limpia de) una oración fuente; todos los caracteres que no son letras (algunos ejemplos: “,?)!-) se reemplazan por un espacio y todas las letras se convierten en minúsculas.
Usando la oración fuente normalizada, se crean grupos de segmentos que tienen la misma oración fuente normalizada. De cada grupo, solo se conserva el mejor segmento, por lo que la oración fuente normalizada de un segmento es única y se conserva automáticamente. De lo contrario, se conserva el segmento con la puntuación de similitud más alta.
Identificación de idioma
Se utiliza un motor de IA para identificar el idioma fuente y objetivo basado en las oraciones. Un segmento solo se elimina si el motor reconoce un idioma (fuente/objetivo) (como ejemplo, oraciones más cortas a menudo no son suficientes para que el motor determine un idioma) y el idioma es diferente al esperado.
QPS
El filtro QPS elimina los pares de oraciones de menor calidad en el conjunto de datos para asegurar que los modelos de IA resultantes se entrenen con los datos de la más alta calidad disponible. En general, cuanto mayor es la calidad de los datos de entrenamiento, mejor es el rendimiento del modelo personalizado.
El filtro QPS se puede configurar de dos maneras:
-
Eliminar un porcentaje especificado de pares de oraciones con las puntuaciones de QPS más bajas. La recomendación es del 10%.
-
Seleccionar un umbral de puntuación. Usar la configuración avanzada para eliminar pares de oraciones que caen por debajo de un umbral de QPS ajustable. El punto de partida recomendado es 50.
Estas dos opciones proporcionan curación automatizada de conjuntos de datos para alinearse con los objetivos de calidad de los usuarios.