Custom AI

Filtri di pulizia

Contenuti tradotti automaticamente dall'inglese con Phrase Language AI.

Gli aspetti più importanti per l'addestramento dei motori MT non riguardano solo il volume, ma anche la qualità dei dati. La pulizia dei dati è un problema diffuso e la pulizia manuale è laboriosa. Dati puliti portano a un addestramento più veloce e a modelli di qualità superiore.

Phrase Custom IA adatta le memorie di traduzione in set di dati con l'aiuto di filtri di pulizia basati su IA e regole. Le impostazioni predefinite fornite dovrebbero essere adatte ai nuovi utenti.

Il set di filtri disponibili include sia filtri basati su regole che filtri basati su ML:

  • Basato su regole

    Filtri che operano con regole chiaramente definite e facilmente comprensibili dagli esseri umani. Questa categoria di filtri include Intervallo di date, Conteggio minimo di caratteri, Lunghezza della coppia di frasi, Rapporto di lunghezza, Non traducibili, Duplicati, Quasi duplicati.

  • Basato su ML

    Filtri che analizzano il contenuto del testo stesso per prendere una decisione, piuttosto che seguire semplicemente un insieme fisso di regole. Questa categoria di filtri include Origine e destinazione non allineate e Identificazione della lingua.

Tutti i filtri valutano su versioni pulite dei segmenti; tra le altre cose, gli spazi multipli vengono ridotti a uno e Phrase tag vengono rimossi.

Intervallo di date

Esclude segmenti al di fuori delle date impostate. Le date di inizio e fine sono incluse insieme alla data dell'ultima modifica di un segmento.

Origine e destinazione non allineate

Questo filtro determina quanto bene i segmenti corrispondono in termini di significato e somiglianza semantica, rimuovendo i peggiori. L'allineamento della coppia di frasi è misurato utilizzando il metrica LASER.

Un motore IA viene utilizzato per verificare che il testo sorgente e il testo di destinazione significhino la stessa cosa o quanto della stessa cosa. L'impostazione consigliata ignora il 10% dei segmenti peggiori mantenendo il 90% dei segmenti migliori.

Le impostazioni avanzate consentono di modificare l'allineamento o possono essere un filtro basato sul punteggio di similarità grezzo utilizzando un numero tra 0 e 1 (1 significa allineamento completo). Si consiglia cautela se si utilizza il punteggio di similarità grezzo poiché ogni combinazione linguistica ha una distribuzione diversa di punteggi e ciò che è considerato un buon punteggio per una combinazione linguistica può essere un punteggio insoddisfacente per un'altra.

Tipicamente, i segmenti al di sotto di 0,5 non sono molto buoni e i segmenti vicini o superiori a 1 sono segmenti che sono gli stessi in entrambe le lingue.

Esempi:

{"source": "Super.", "target": "Super.", "similarity": 1.05}

{"source": "Ciao", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}

Conteggio minimo di caratteri e lettere

Conteggio caratteri include tutti i caratteri. Questo include tutte le lettere, gli spazi bianchi e la punteggiatura e i simboli. Per scopi di formazione, può essere utile ignorare i segmenti che non contengono lettere.

Conteggio lettere conta solo le lettere come nell'alfabeto inglese, ma anche caratteri più complessi con diacritici o caratteri cinesi. Un carattere cinese è conteggiato come una lettera, anche se rappresenta più di un carattere. Per le lingue basate sui caratteri, i valori predefiniti sono 1, ma per le lingue basate sulle parole i valori predefiniti sono 4 (caratteri) e 3 (lettere). Il valore minimo è 1 e il valore massimo è 500.

Se si mantengono molti segmenti brevi nei dati (ad esempio acronimi), mantenere i valori del filtro bassi.

Esempio:

La stringa "Ciao, Mondo! 1 2 3" ha 19 caratteri e 10 lettere.

Lunghezza della coppia di frasi

Questo filtro rimuove tutti i segmenti che sono più lunghi del valore soglia impostato dagli utenti. Il motivo di questo filtro è che la maggior parte dei sistemi NMT non si allenerà effettivamente su segmenti che sono più lunghi della loro soglia interna. 

Ad esempio, la soglia interna di NextMT è di 200 token, che corrisponde a circa 100 - 1.000 parole. Per addestrare un motore personalizzato su frasi più brevi, impostare questo valore inferiore al predefinito.

Il conteggio totale dei caratteri include tutti i caratteri - lettere, spazi bianchi e punteggiatura - sia dalle frasi di origine che da quelle di destinazione. Prendere in considerazione il tipo di lingua (ad esempio cinese e inglese); se la lingua di origine non è simile al CJK e la lingua di destinazione è CJK (o viceversa), questo filtro sarà ignorato.

Rapporto di lunghezza

Questo filtro identifica i segmenti in cui la lunghezza è significativamente più alta confrontando il segmento di origine e il segmento di destinazione. Alcune traduzioni aumentano o diminuiscono in lunghezza quando si traducono da una lingua di origine a una lingua di destinazione. Traduzioni troppo lunghe o troppo brevi possono indicare dati di addestramento di bassa qualità.

Se la lingua di origine non è simile al CJK e la lingua di destinazione è (o viceversa), questo filtro sarà ignorato.CJK

Alcune lingue sono più verbose di altre, quindi il 200% è un buon valore predefinito. Se la lingua di destinazione è simile alla lingua di origine, o se è necessario filtrare più dati, il valore può essere inferiore.

Esempi:

Una lingua è CJK - il rapporto è 1. Non sarà scartato:

{"source": "Questa è una frase.", "target": "这是一个句子。", "ratio": 1}

La traduzione tedesca ha una lunghezza comparabile rispetto alla fonte inglese e non sarà scartata:

{"source": "Questa è una frase.", "target": "Dies ist ein Satz.", "ratio": 1.1}

La traduzione tedesca è molto più lunga della fonte inglese e sarà scartata:

{"source": "Questa è una frase.", "target": "Questa è una frase con riempimenti inutili aggiuntivi.", "ratio": 3.1}

Non traducibili

I non traducibili sono segmenti in cui le frasi sorgente e destinazione sono le stesse. Esclude tutte le coppie di frasi non traducibili in cui il testo di destinazione rimane invariato rispetto al testo sorgente.

Duplicati

Vengono creati gruppi di segmenti che hanno la stessa frase sorgente. Da ciascun gruppo, viene mantenuto solo il miglior segmento, quindi se la frase sorgente di un segmento è unica, viene automaticamente mantenuta. Altrimenti, viene mantenuto il segmento con il punteggio di similarità più alto.

Quasi duplicati

Quando si testano i quasi duplicati, una frase sorgente (leggermente più pulita) viene normalizzata; tutti i caratteri non lettera (alcuni esempi: “,?)!-) vengono sostituiti con uno spazio e tutte le lettere vengono rese minuscole.

Utilizzando la frase sorgente normalizzata, vengono creati gruppi di segmenti che hanno la stessa frase sorgente normalizzata. Da ciascun gruppo, viene mantenuto solo il miglior segmento, quindi la frase sorgente normalizzata di un segmento è unica e viene automaticamente mantenuta. Altrimenti, viene mantenuto il segmento con il punteggio di similarità più alto.

Identificazione della lingua

Un motore IA viene utilizzato per identificare la lingua sorgente e di destinazione in base alle frasi. Un segmento viene rimosso solo se il motore riconosce una lingua (sorgente/destinazione) (ad esempio, frasi più brevi spesso non sono sufficienti per il motore per determinare una lingua) e la lingua è diversa da quella prevista.

QPS

Il filtro QPS rimuove le coppie di frasi di qualità più bassa nel dataset per garantire che i modelli IA risultanti siano addestrati sui dati di qualità più alta disponibili. In generale, maggiore è la qualità dei dati di addestramento, migliore è la performance del modello personalizzato.

Il filtro QPS può essere configurato in due modi:

  1. Rimuovendo una percentuale specificata di coppie di frasi con i punteggi QPS più bassi. La raccomandazione è del 10%.

  2. Selezionare una soglia di punteggio. Utilizzare le impostazioni avanzate per eliminare le coppie di frasi che rientrano al di sotto di una soglia QPS regolabile. Il punto di partenza consigliato è 50.

Queste due opzioni forniscono una curatela automatizzata del dataset per allinearsi con gli obiettivi di qualità degli utenti.

Questo articolo ti è stato utile?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.