Custom AI

Filtri di pulizia

Contenuti tradotti automaticamente dall'inglese con Phrase Language AI.

Phrase Custom AI consente di adattare le memorie di traduzione nei set di dati con l'aiuto di filtri di pulizia basati sull'intelligenza artificiale e su regole. Vengono fornite le impostazioni predefinite che possono essere adatte ai nuovi utenti.

Tutti i filtri valutano le versioni pulite dei segmenti. Ad esempio, più spazi vengono ridotti a uno e i tag Phrase vengono rimossi.

Intervallo date

Sia la data di fine che quella di inizio sono incluse con la data di ultima modifica di un segmento presa in considerazione.

Origine e destinazione disallineate

Questo filtro consente agli utenti di determinare la corrispondenza dei segmenti in termini di significato e somiglianza semantica, rimuovendo i più votati. L'allineamento della coppia di frasi viene misurato utilizzando la metrica LASER.

Un motore AI viene utilizzato per controllare che il testo di origine e di destinazione significhino la stessa cosa o quanto della stessa cosa. L'impostazione consigliata scarta i segmenti peggiori del 10% mantenendo i segmenti migliori del 90%.

Le impostazioni avanzate consentono la modifica dell'allineamento o possono essere un filtro basato sul punteggio di somiglianza grezzo utilizzando un numero compreso tra 0 e 1 (1 significa allineamento completo). Si consiglia cautela se si utilizza il punteggio di somiglianza grezzo poiché ogni combinazione linguistica ha una diversa distribuzione dei punteggi e ciò che è considerato un buon punteggio per una combinazione linguistica può essere un punteggio insoddisfacente per un'altra.

Conteggio minimo dei caratteri

Il conteggio dei caratteri include tutti i caratteri. Questo include tutte le lettere, gli spazi bianchi, la punteggiatura e i simboli.

Il conteggio delle lettere conta solo lettere come nell'alfabeto inglese, ma anche caratteri più complessi con caratteri diacritici o cinesi. Un carattere cinese viene contato come una lettera, anche se rappresenta più di un carattere.

Lunghezza coppia di frasi

Il conteggio totale dei caratteri include tutti i caratteri - lettere ma anche spazi bianchi, punteggiatura - sia delle frasi di origine che di destinazione. Assicurati di prendere in considerazione il tipo di lingua (per esempio cinese e inglese). Se la lingua di origine non è CJK e la lingua di destinazione è CJK (o viceversa), questo filtro verrà ignorato.

Rapporto lunghezza

Questo filtro identifica i segmenti in cui la lunghezza è significativamente maggiore quando si confrontano il segmento di origine e il segmento di destinazione. Alcune traduzioni aumentano o diminuiscono di lunghezza quando si traduce da una lingua d'origine a una lingua di destinazione. Traduzioni troppo lunghe o troppo brevi possono indicare dati di addestramento di bassa qualità.

Se la lingua di origine non è un alfabeto CJK e la lingua di destinazione è CJK (o viceversa), questo filtro verrà ignorato.

Non traducibili

Escludi tutte le coppie di frasi non traducibili in cui il testo di destinazione rimane invariato rispetto al testo di origine.

Duplicati

Vengono creati gruppi di segmenti con la stessa frase di origine. Da ogni gruppo viene mantenuto solo il segmento migliore, quindi se la frase di origine di un segmento è unica, viene mantenuta automaticamente. Altrimenti. viene mantenuto il segmento con il punteggio di somiglianza più alto.

Quasi duplicati

Quando si testano quasi duplicati, la frase di origine (versione leggermente più pulita di) viene normalizzata; tutti i caratteri non lettera (alcuni esempi: ",?)!-) vengono sostituiti con uno spazio e tutte le lettere sono rese minuscole.

Utilizzando la frase di origine normalizzata vengono creati gruppi di segmenti con la stessa frase di origine normalizzata. Da ogni gruppo viene mantenuto solo il segmento migliore, quindi la frase di origine normalizzata di un segmento è unica e viene mantenuta automaticamente. Altrimenti. viene mantenuto il segmento con il punteggio di somiglianza più alto.

Identificazione della lingua

Un motore AI viene utilizzato per identificare la lingua di origine e di destinazione in base alle frasi. Un segmento viene rimosso solo se il motore riconosce una lingua (di origine/destinazione) (ad esempio, frasi più brevi spesso non sono sufficienti per il motore per determinare una lingua) e la lingua è diversa dal previsto.

Questo articolo ti è stato utile?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.