Filtri di pulizia

Contenuti tradotti automaticamente dall'inglese con Phrase Language AI.

Gli aspetti più importanti dell'addestramento dei motori MT non sono solo il volume, ma la qualità dei dati. La pulizia dei dati è un problema pervasivo e la pulizia manuale è laboriosa. Dati puliti portano a un addestramento più rapido e a modelli di qualità superiore.

Phrase Custom IA adatta le memorie di traduzione in set di dati con l'aiuto di filtrare di pulizia basati su IA e su regole. Le impostazioni predefinite fornite dovrebbero essere adatte ai nuovi utenti.

Il set di filtrare disponibili include sia filtrare basati su regole che filtrare basati su ML:

Basato su regole

Filtri che operano con regole chiaramente definite che sono facilmente comprensibili dagli esseri umani. Questa categoria di filtrare include Intervallo di date, Conteggio minimo di carattere, Lunghezza della coppia di frasi, Rapporto di lunghezza, Non traducibili, Duplicati, Quasi duplicati.
Basato su ML

Filtri che analizzare il contenuto del testo stesso per prendere una decisione, piuttosto che seguire semplicemente una serie fissa di regole. Questa categoria di filtrare include Origine e destinazione non allineate e Identificazione della lingua.

Tutti i filtrare valutano le versioni pulite dei segmento; tra le altre cose, gli spazi multipli vengono ridotti a uno e i tag di Phrase vengono rimossi.

Intervallo di date

Esclude i segmento al di fuori delle date impostate. Le date di fine e di inizio sono incluse insieme alla data dell'ultima modifica di un segmento.

Origine e destinazione non allineate

Questo filtrare determina quanto bene i segmento corrispondono in termini di significato e somiglianza semantica, rimuovendo quelli con la valutazione peggiore. L'allineamento della coppia di frasi viene misurato utilizzando la metrica LASER.

Un motore IA viene utilizzato per verificare che il testo di origine e di destinazione significhino la stessa cosa o quanto siano simili. L'impostazioni consigliata Ignora il 10% dei segmenti peggiori mantenendo il 90% dei segmenti migliori.

Le impostazioni avanzate consentono di modificare l'allineamento o possono essere un filtrare basato sul punteggio di similarità grezzo utilizzando un numero compreso tra 0 e 1 (1 significa Completa allineamento). Si consiglia cautela se si utilizza il punteggio di similarità grezzo poiché ogni combinazione linguistica ha una diversa distribuzione di punteggio e ciò che è considerato un buon punteggio per una combinazione linguistica potrebbe essere un punteggio insoddisfacente per un'altra.

In genere i segmenti inferiori a 0,5 non sono molto buoni e i segmenti vicini o superiori a 1 sono segmenti che sono uguali in entrambe le lingue.

Esempi:

{"source": "Super.", "target": "Super.", "similarity": 1.05}

{"source": "Hello", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}

Conteggio minimo di carattere e lettere

Conteggio carattere include tutti i carattere. Ciò include tutte le lettere, gli spazi bianchi, la punteggiatura e i simboli. Ai fini dell'addestramento, può essere utile Ignora i segmenti che non contengono lettere.

Conteggio lettere conta solo le lettere come quelle dell'alfabeto inglese, ma anche carattere più complessi con diacritici o carattere cinesi. Un carattere cinese viene conteggiato come una lettera, anche se rappresenta più di un carattere. Per le lingue basate sui carattere i valori predefiniti sono 1, ma per le lingue basate sulle parole i valori predefiniti sono 4 (carattere) e 3 (lettere). Il valore minimo è 1 e il valore massimo è 500.

Se si mantengono molti segmenti brevi nei dati (ad esempio acronimi), mantenere bassi i valori del filtrare.

Esempio:

La stringa \"Hello, World!" 1 2 3\" ha 19 carattere e 10 lettere.

Lunghezza della coppia di frasi

Questo filtrare rimuove tutti i segmento che sono più lunghi del valore soglia impostato dagli utenti. Il motivo di questo filtrare è che la maggior parte dei sistemi NMT non si addestra effettivamente su segmento più lunghi della loro soglia interna.

Ad esempio, la soglia interna di NextMT è di 200 token, che equivalgono a circa 100 - 1.000 parola. Per addestrare un motore Personalizzato su frasi più brevi, impostare questo valore più basso rispetto a quello predefinito.

Il conteggio totale del carattere include tutti i carattere - lettere, spazi bianchi e punteggiatura - sia dalla frase di origine che da quella di destinazione. Prendere in considerazione il tipo di lingua (ad esempio cinese e inglese); se la lingua di origine non è simile al CJK e la lingua di destinazione è CJK (o viceversa), questo filtrare verrà ignorato.

Rapporto di lunghezza

Questo filtrare identifica i segmento in cui la lunghezza è significativamente maggiore quando si confrontano il segmento di origine e il segmento di destinazione. Alcune traduzioni aumentano o diminuiscono di lunghezza quando si traduce da una lingua di origine a una lingua di destinazione. Traduzioni troppo lunghe o troppo brevi possono indicare dati di addestramento di bassa qualità.

Se la lingua di origine non è simile al CJK e la lingua di destinazione lo è (o viceversa), questo filtrare verrà ignorato.CJK

Alcune lingua sono più prolisse di altre, quindi 200% è un buon valore predefinito. Se la lingua di destinazione è simile alla lingua di origine, o se è necessario filtrare più dati, il valore può essere inferiore.

Esempi:

Una lingua è CJK - il rapporto è 1. Non verrà scartato:

{"source": "This is a sentence.", "target": "这是一个句子。", "ratio": 1}

La traduzione tedesca ha una lunghezza paragonabile a quella dell'origine inglese e non verrà scartata:

{"source": "This is a sentence.", "target": "Dies ist ein Satz.", "ratio": 1.1}

La traduzione tedesca è molto più lunga dell'origine inglese e verrà scartata:

{"source": "This is a sentence.", "target": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}

Non traducibili

I non traducibili sono segmenti in cui l'origine e la destinazione del segmento sono le stesse. Esclude tutte le coppie di frasi non traducibili in cui il testo di destinazione rimane invariato rispetto al testo di origine.

Duplicati

Vengono creati gruppi di segmenti che hanno la stessa origine. Da ogni gruppo, viene mantenuto solo il miglior segmento, quindi se l'origine di un segmento è univoca, viene mantenuta automaticamente. Altrimenti, viene mantenuto il segmento con il punteggio di similarità più alto.

Quasi-duplicati

Durante il test per i quasi-duplicati, la (versione leggermente più pulita di) un'origine viene normalizzata; tutti i caratteri non alfabetici (alcuni esempi: “,?)!-) vengono sostituiti con uno spazio e tutte le lettere vengono rese minuscole.

Utilizzando l'origine normalizzata, vengono creati gruppi di segmenti che hanno la stessa origine normalizzata. Da ogni gruppo, viene mantenuto solo il miglior segmento, quindi l'origine normalizzata di un segmento è univoca e viene mantenuta automaticamente. Altrimenti, viene mantenuto il segmento con il punteggio di similarità più alto.

Identificazione della lingua

Un motore IA viene utilizzato per identificare l'origine e la destinazione della lingua in base alle frasi. Un segmento viene rimosso solo se il motore riconosce una lingua (origine/destinazione) (ad esempio, frasi più brevi spesso non sono sufficienti affinché il motore determini una lingua) e la lingua è diversa da quella prevista.

QPS

Il filtro QPS rimuove le coppie di frasi di qualità inferiore nel set di dati per garantire che i modelli IA risultanti siano addestrati sui dati di qualità più elevata disponibili. In genere, maggiore è la qualità dei dati di addestramento, migliori sono le prestazioni del modello personalizzato.

Il filtro QPS può essere configurato in due modi:

Rimozione di una percentuale specificata di coppie di frasi con i punteggi QPS più bassi. La raccomandazione è del 10%.
Selezione di una soglia di punteggio. Usare le impostazioni avanzate per eliminare le coppie di frasi che scendono al di sotto di una soglia di QPS regolabile. Il punto di partenza consigliato è 50.

Queste due opzioni forniscono una cura automatizzata del dataset per allinearsi agli obiettivi di qualità degli utenti.