Quando si tratta di addestrare motori MT, l'ingrediente più importante non è solo il volume, ma la qualità dei dati. La pulizia dei dati è un problema diffuso da tempo e la pulizia manuale è un processo laborioso. I dati puliti portano a un addestramento più rapido e a modelli di qualità superiore.
Phrase Custom AI consente di adattare le memorie di traduzione nei set di dati con la Guida di filtri di pulizia basati sull'IA e su regole. Vengono fornite impostazioni predefinite che possono essere adatte ai nuovi utenti.
Il set di filtri disponibili include sia filtri basati su regole che filtri basati su ML:
-
Basato su regole
Filtri che funzionano con regole chiaramente definite e facilmente comprensibili dagli esseri umani. Questa categoria filtrante include
, , , , , , . -
Basato su ML
Filtri che analizzano il contenuto del testo stesso per prendere una decisione, piuttosto che seguire semplicemente un insieme fisso di regole. Questa categoria filtrante include
e .
Tutti i filtri valutano le versioni pulite dei segmenti. Per esempio, spazi multipli sono ridotti a uno e tag phrase rimossi.
Intervallo di date
Sia la data di fine che quella di inizio sono incluse con la data dell’ultima modifica di un segmento presa in account.
Origine e destinazione disallineate
Questo filtrato consente agli utenti di determinare la corrispondenza dei segmenti in termini di significato e somiglianza semantica, rimuovendo i più votati . L’allineamento della coppia di frasi viene misurato utilizzando la metrica LASER.
Un motore IA viene utilizzato per controllare che il testo di origine e di destinazione significhino la stessa cosa o quanto della stessa cosa. L'impostazione consigliata scarta i segmenti peggiori del 10% mantenendo i segmenti migliori del 90%.
Le impostazioni avanzate consentono di modificare l'allineamento o possono essere filtrate in base al punteggio di somiglianza grezzo utilizzando un numero compreso tra 0 e 1 (1 significa allineamento Completa). Si consiglia cautela se si utilizza il punteggio di somiglianza grezzo poiché ogni combinazione linguistica ha una diversa distribuzione dei punteggi e ciò che è considerato un buon punteggio per una combinazione linguistica può essere un punteggio insoddisfacente per un'altra.
In genere i segmenti sotto 0,5 non sono molto buoni e i segmenti vicini o oltre 1 sono segmenti che sono gli stessi in entrambe le lingue.
Esempi:
{"source": "Super". "Destinazione": "Super". "Somiglianza": 1.05}
{"source": "Hello", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}
Carattere minimo e conteggio lettere
Il conteggio caratteri include tutti i caratteri. Questo include tutte le lettere, gli spazi bianchi, la punteggiatura e i simboli. A fini di addestramento, può essere utile ignorare i segmenti che non contengono lettere.
Il conteggio lettere conta solo lettere come nell'alfabeto inglese, ma anche caratteri più complessi con caratteri diacritici o cinesi. Un carattere cinese viene contato come una lettera, anche se rappresenta più di un carattere. Per le lingue basate su caratteri i valori predefiniti sono 1, mentre per le lingue basate su parole i valori predefiniti sono 4 (caratteri) e 3 (lettere). Il valore minimo è 1 e il valore massimo è 500.
Se mantieni molti segmenti brevi nei dati (ad esempio acronimi), mantieni bassi i valori filtrati.
Esempio:
Lunghezza della coppia di frasi
Questo filtro rimuove tutti i segmenti che hanno una lunghezza superiore al valore di soglia impostato dagli utenti. La ragione per cui questo filtro è filtrato è che la maggior parte dei sistemi NMT non si addestra in realtà su segmenti che sono più lunghi della loro soglia interna.
Ad esempio, la soglia interna di NextMT è di 200 token, che equivale a circa 100 - 1.000 parole. Per addestrare un motore personalizzato su frasi più brevi, imposta questo valore più basso di quello predefinito.
Il conteggio totale dei caratteri include tutti i caratteri - lettere, spazi bianchi e punteggiatura - sia delle frasi di origine che di destinazione. Prendiamo in considerazione il tipo di lingua (per esempio cinese e inglese); se la lingua di origine non è simile al CJK e la lingua di destinazione è il CJK (o il contrario), questo filtro verrà ignorato.
Rapporto di lunghezza
Questo filtro identifica i segmenti in cui la lunghezza è significativamente superiore quando si confrontano il segmento di origine e il segmento di destinazione. Alcune traduzioni aumentano o diminuiscono di lunghezza quando si traduce da una lingua di origine a una lingua di destinazione. Traduzioni troppo lunghe o troppo brevi possono indicare dati di addestramento di bassa qualità.
Se la lingua di origine non è CJK e la lingua di destinazione è (o il contrario), questo filtro verrà ignorato.CJK
Alcune lingue sono più Verbose di altre, quindi il 200% è un buon valore predefinito. Se la lingua di destinazione è simile alla lingua di origine o devono essere filtrati più dati, il valore può essere inferiore.
Esempi:
Una lingua è CJK - il rapporto è 1. Non verrà scartato:
{"source": "Questa è una frase.", "destinazione": "这是一个句子。", "ratio": 1}
La traduzione in tedesco è di lunghezza paragonabile a quella di origine inglese e non verrà scartata:
{"source": "Questa è una frase.", "Destinazione": "Dies ist ein Satz.", "ratio": 1.1}
La traduzione tedesca è molto più lunga dell'origine inglese e verrà scartata:
{"source": "Questa è una frase.", "Destinazione": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}
Non traducibili
I non traducibili sono segmenti in cui i segmenti di origine e destinazione sono gli stessi. Escludi tutte le coppie di frasi non traducibili in cui il testo di destinazione rimane invariato rispetto al testo di origine.
Duplicati
Vengono creati gruppi di segmenti con la stessa frase di origine. Da ogni gruppo, viene conservato solo il segmento migliore, quindi se la frase di origine di un segmento è unica, viene automaticamente mantenuta. Altrimenti. viene conservato il segmento con il punteggio di somiglianza più alto.
Quasi duplicati
Quando si effettuano prove per quasi duplicati, la frase di origine (versione leggermente più pulita) viene normalizzata; tutti i caratteri non lettere (alcuni esempi: “,?)!-
) vengono sostituiti da uno spazio e tutte le lettere sono rese minuscole.
Utilizzando la frase di origine normalizzata, vengono creati gruppi di segmenti che hanno la stessa frase di origine normalizzata. Da ogni gruppo, viene conservato solo il segmento migliore, in modo che la frase di origine normalizzata di un segmento sia unica e venga mantenuta automaticamente. Altrimenti. viene conservato il segmento con il punteggio di somiglianza più alto.
Identificazione della lingua
Un motore IA viene utilizzato per identificare la lingua di origine e destinazione in base alle frasi. Un segmento viene rimosso solo se il motore riconosce una lingua (origine/destinazione) (ad esempio, frasi più brevi spesso non sono sufficienti al motore per determinare una lingua) e la lingua è diversa da quella prevista.
QPS
Il filtro QPS consente di rimuovere la frase IA di qualità inferiore nel set di dati per garantire che i modelli di IA risultanti siano addestrati sulla base dei dati della massima qualità disponibili. In generale, maggiore è la qualità dei dati di addestramento, migliori sono le prestazioni del modello personalizzato.
Il filtro QPS può essere configurato in due modi:
-
Rimozione di una percentuale specifica di coppie di frasi con i punteggi QPS più bassi. La raccomandazione è del 10%.
-
Selezione di una soglia di punteggio. Usa le impostazioni avanzate per eliminare le coppie di frasi che scendono al di sotto di una soglia QPS regolabile. Il punto di partenza consigliato è 50.
Queste due opzioni forniscono la cura del set di dati automatizzato per allinearsi agli obiettivi di qualità degli utenti.