Filtros de limpieza

El contenido se traduce automáticamente del inglés por Phrase Language AI.

Los aspectos más importantes del entrenamiento de motores de MT no son solo el volumen, sino la calidad de los datos. Limpiar datos es un problema generalizado y la limpieza manual es laboriosa. Los datos limpios conducen a un entrenamiento más rápido y a modelos de mayor calidad.

Phrase Custom IA adapta memorias de traducción en conjuntos de datos con la Ayuda de filtros de limpieza basados en reglas y potenciados por IA. La configuración predeterminada proporcionada debería ser adecuada para nuevos usuarios.

El conjunto de filtros disponibles incluye tanto filtros basados en reglas como filtros basados en ML:

Basado en reglas

Filtros que operan con reglas claramente definidas que son fácilmente comprensibles por los humanos. Esta categoría de filtrar incluye Rango de fechas, Recuento mínimo de carácter, Longitud del par de oraciones, Relación de longitud, No traducibles, Duplicados, Casi duplicados.
Basado en ML

Filtros que analizar el contenido del texto en sí para tomar una decisión, en lugar de simplemente seguir un conjunto fijo de reglas. Esta categoría de filtrar incluye Fuente y meta desalineadas y Identificación de idioma.

Todos los filtros evalúan versiones limpias de los segmento; entre otras cosas, los espacios múltiples se reducen a uno y se eliminan las etiquetas de Phrase.

Rango de fechas

Excluye segmento fuera de las fechas establecidas. Las fechas de inicio y fin se incluyen junto con la fecha de última modificación de un segmento.

Fuente y meta desalineadas

Este filtrar determina qué tan bien coinciden los segmento en términos de significado y similitud semántica, eliminando los peor calificados. La alineación del par de oraciones se mide utilizando la métrica LASER.

Se utiliza un motor de IA para comprobar que el texto fuente y el texto meta signifiquen lo mismo o cuánto significan lo mismo. La configuración recomendada Descartar el 10% de los peores segmentos mientras mantiene el 90% de los mejores segmentos.

La configuración avanzada permite cambiar la alineación o puede ser un filtrar basado en la puntuación de similitud sin procesar usando un número entre 0 y 1 (1 significa Completar alineación). Se recomienda precaución si utiliza la puntuación de similitud sin procesar, ya que cada combinación tiene una distribución diferente de puntuaciones y lo que se considera una buena puntuación para una combinación puede ser una puntuación insatisfactoria para otra.

Normalmente, los segmentos por debajo de 0.5 no son muy buenos y los segmentos cercanos o superiores a 1 son segmentos que son iguales en ambos idiomas.

Ejemplos:

{"source": "Super.", "target": "Super.", "similarity": 1.05}

{"source": "Hello", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}

Recuento mínimo de carácter y letra

Recuento de carácter incluye todos los caracteres. Esto incluye todas las letras, espacios en blanco, puntuación y símbolos. Para fines de entrenamiento, puede ser útil Descartar segmentos que no contengan ninguna letra.

Recuento de letras cuenta solo letras como las del alfabeto inglés, pero también caracteres más complejos con diacríticos o caracteres chinos. Un carácter chino se cuenta como una letra, incluso si representa más de un carácter. Para idiomas basados en caracteres, los valores predeterminados son 1, pero para idiomas basados en palabras, los valores predeterminados son 4 (caracteres) y 3 (letras). El valor mínimo es 1 y el valor máximo es 500.

Si mantiene muchos segmentos cortos en los datos (por ejemplo, acrónimos), mantenga los valores de filtrar bajos.

Ejemplo:

La cadena \"Hello, World!" 1 2 3\" tiene 19 caracteres y 10 letras.

Longitud del par de oraciones

Este filtrar elimina todos los segmentos que son más largos que el valor de umbral establecido por los usuarios. La razón de este filtrar es que la mayoría de los sistemas NMT no se entrenarán realmente con segmentos que sean más largos que su umbral interno.

Por ejemplo, el umbral interno de NextMT es de 200 tokens, lo que equivale aproximadamente a 100 - 1,000 palabras. Para entrenar un motor Personalizar con oraciones más cortas, establezca este valor por debajo del predeterminado.

El recuento total de carácter incluye todos los carácter - letras, espacios en blanco y puntuación - tanto del fuente como del meta oraciones. Tenga en cuenta el tipo de idioma (por ejemplo, chino e inglés); si el fuente idioma no es tipo CJK y el meta idioma es CJK (o viceversa), este filtrar será ignorado.

Relación de longitud

Este filtrar identifica segmentos donde la longitud es significativamente mayor al comparar el fuente segmento y el meta segmento. Algunas traducciones aumentan o disminuyen en longitud al traducir de un fuente a un meta idioma. Las traducciones demasiado largas o demasiado cortas pueden indicar datos de entrenamiento de baja calidad.

Si el fuente idioma no es tipo CJK y el meta idioma lo es (o viceversa), este filtrar será ignorado.CJK

Algunos idiomas son más verbosos que otros, por lo que 200% es un buen valor predeterminado. Si el meta idioma es similar al fuente idioma, o se necesita filtrar más datos, el valor puede ser menor.

Ejemplos:

Un idioma es CJK - la relación es 1. No se descartará:

{"source": "This is a sentence.", "target": "这是一个句子。", "ratio": 1}

La traducción al alemán tiene una longitud comparable a la del fuente en inglés y no se descartará:

{"source": "This is a sentence.", "target": "Dies ist ein Satz.", "ratio": 1.1}

La traducción al alemán es mucho más larga que el fuente en inglés y se descartará:

{"fuente": "This is a sentence.", "meta": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}

No traducibles

Los no traducibles son segmentos donde los segmentos fuente y meta son iguales. Excluye todos los pares de oraciones no traducibles donde el texto meta permanece sin cambios respecto al texto fuente.

Duplicados

Se crean grupos de segmentos que tienen la misma oración fuente. De cada grupo, solo se conserva el mejor segmento, por lo que si la oración fuente de un segmento es única, se conserva automáticamente. De lo contrario, se conserva el segmento con la puntuación de similitud más alta.

Duplicados cercanos

Al probar duplicados cercanos, se normaliza (una versión ligeramente más limpia de) una oración fuente; todos los caracteres que no son letras (algunos ejemplos: “,?)!-) se reemplazan con un espacio y todas las letras se escriben en minúsculas.

Utilizando la oración fuente normalizada, se crean grupos de segmentos que tienen la misma oración fuente normalizada. De cada grupo, solo se conserva el mejor segmento, por lo que la oración fuente normalizada de un segmento es única y se conserva automáticamente. De lo contrario, se conserva el segmento con la puntuación de similitud más alta.

Identificación de idioma

Se utiliza un motor de IA para identificar el idioma fuente y meta basándose en las oraciones. Un segmento solo se elimina si el motor reconoce un idioma (fuente/meta) (como ejemplo, las oraciones más cortas a menudo no son suficientes para que el motor determine un idioma) y el idioma es diferente al esperado.

QPS

El filtro QPS elimina los pares de oraciones de menor calidad en el conjunto de datos para garantizar que los modelos de IA resultantes se entrenen con los datos de mayor calidad disponibles. Generalmente, cuanto mayor sea la calidad de los datos de entrenamiento, mejor será el rendimiento del modelo personalizado.

El filtro QPS se puede configurar de dos maneras:

Eliminar un porcentaje especificado de pares de oraciones con las puntuaciones de QPS más bajas. La recomendación es del 10%.
Seleccionar un umbral de puntuación. Usar la configuración avanzada para eliminar pares de oraciones que caigan por debajo de un umbral de QPS ajustable. El punto de partida recomendado es 50.

Estas dos opciones proporcionan una curación automatizada del conjunto de datos para alinearse con los objetivos de calidad de los usuarios.