La curazione delle memorie di traduzione è un problema persistente e la pulizia manuale è un processo laborioso. Pulire le memorie di traduzione porta a migliori riferimenti per i linguisti e a una traduzione automatica di qualità superiore, il che è particolarmente rilevante per Phrase NextMT, date le sue capacità avanzate di sfruttare le risorse linguistiche, come le memorie di traduzione e i glossari.
Per creare un dataset da utilizzare con una TM curata in TMS, segui questi passaggi:
-
Nella pagina Dataset, clicca su Pulisci una memoria di traduzione.
Si apre la pagina .
-
Fornisci un nome per il dataset.
-
I selettori di lingua consentono varie opzioni:
-
Per creare un dataset linguistico generale, seleziona le stesse lingue di origine e destinazione nei selettori di lingua di origine e destinazione e nelle impostazioni locali.
-
Per creare un dataset specifico per le impostazioni locali, seleziona le lingue di origine e destinazione dalla prima lista a discesa e poi specifica le impostazioni locali di origine e destinazione dalla seconda lista a discesa.
Possono essere aggiunte anche più impostazioni locali di destinazione (cioè varianti diverse della stessa lingua) per sfruttare più fonti di dati.
-
Per creare un dataset con più impostazioni locali di origine e destinazione, seleziona le lingue di origine e destinazione dalla prima lista a discesa, specifica le impostazioni locali di origine e destinazione dalla seconda lista a discesa (possono essere aggiunte varianti diverse della stessa lingua di destinazione) e clicca su + Aggiungi altre coppie di impostazioni locali.
Appare la finestra .
-
-
Clicca su Aggiungi memorie di traduzione.
Si apre la pagina con una funzionalità di ricerca
.
-
Per aggiungere una TM al dataset, clicca sull'icona
. La TM viene aggiunta alla colonna .
Possono essere aggiunte più TM fino a un massimo di 200 TM e un massimo di 8 milioni di segmenti. Un dataset dovrebbe idealmente contenere almeno 10.000 segmenti.
Cliccando sul nome del TM verrà presentata la selezione nella pagina della memoria di traduzione.
Clicca sull'icona
per rimuovere il TM dalla colonna .
-
Clicca su Salva.
Si apre la pagina .
-
Esamina i dettagli come presentati e, se corretti, clicca su Continuare.
Si apre la pagina .
-
Applica i filtri richiesti e clicca su Creare.
Il dataset è creato e aggiunto all'elenco nella pagina con lo stato iniziale di e lo stato di nella colonna .
Phrase Custom IA consente di curare le memorie di traduzione con l'aiuto di filtri di pulizia basati su IA e regole. Vengono fornite impostazioni predefinite che possono essere adatte per i nuovi utenti.
Questo processo preserva i metadati del segmento TM originale e i tag TM che consentono agli utenti di mantenere il leverage del TM quando utilizzano i TM puliti nel TMS.
Il set di filtri disponibili include sia filtri basati su regole che filtri basati su ML:
-
Basato su regole
Filtri che operano con regole chiaramente definite che sono facilmente comprensibili dagli esseri umani. Questa categoria di filtri include , , , , , , .
-
Basato su ML
Filtri che analizzano il contenuto del testo stesso per prendere una decisione, piuttosto che seguire semplicemente un insieme fisso di regole. Questa categoria di filtri include e .
Intervallo di date
Esclude i segmenti al di fuori delle date impostate. Le date di inizio e fine sono incluse insieme alla data dell'ultima modifica di un segmento.
Sorgente e destinazione non allineate
Questo filtro determina quanto bene i segmenti corrispondano in termini di significato e somiglianza semantica, rimuovendo i meno valutati. L'allineamento delle coppie di frasi è misurato utilizzando il metrica LASER.
Un motore IA viene utilizzato per verificare che il testo sorgente e il testo di destinazione significhino la stessa cosa o quanto della stessa cosa. L'impostazione consigliata ignora il 10% dei segmenti peggiori mantenendo il 90% dei segmenti migliori.
Le impostazioni avanzate consentono di modificare l'allineamento o possono essere un filtro basato sul punteggio di somiglianza grezzo utilizzando un numero tra 0 e 1 (1 significa allineamento completo). Si consiglia cautela se si utilizza il punteggio di somiglianza grezzo poiché ogni combinazione linguistica ha una distribuzione diversa dei punteggi e ciò che è considerato un buon punteggio per una combinazione linguistica può essere un punteggio insoddisfacente per un'altra.
Tipicamente, i segmenti al di sotto di 0,5 non sono molto buoni e i segmenti vicini o superiori a 1 sono segmenti che sono gli stessi in entrambe le lingue.
Esempi:
Conteggio minimo di caratteri e lettere
Conteggio caratteri include tutti i caratteri. Questo include tutte le lettere, spazi bianchi, punteggiatura e simboli. Per scopi di formazione, può essere utile ignorare i segmenti che non contengono lettere.
Conteggio lettere conta solo le lettere come nell'alfabeto inglese, ma anche caratteri più complessi con diacritici o caratteri cinesi. Un carattere cinese è conteggiato come una lettera, anche se rappresenta più di un carattere. Per le lingue basate su caratteri, i valori predefiniti sono 1, ma per le lingue basate su parole i valori predefiniti sono 4 (caratteri) e 3 (lettere). Il valore minimo è 1 e il valore massimo è 500.
Se si mantengono molti segmenti brevi nei dati (ad esempio acronimi), mantenere i valori del filtro bassi.
Esempio:
La stringa "Ciao, Mondo! 1 2 3" ha 19 caratteri e 10 lettere.
Lunghezza della coppia di frasi
Questo filtro rimuove tutti i segmenti che sono più lunghi del valore soglia impostato dagli utenti.
Il conteggio totale dei caratteri include tutti i caratteri - lettere, spazi bianchi e punteggiatura - sia dalle frasi sorgente che da quelle di destinazione. Prendere in considerazione il tipo di lingua (ad esempio cinese e inglese); se la lingua sorgente non è simile al CJK e la lingua di destinazione è CJK (o viceversa), questo filtro verrà ignorato.
Rapporto di lunghezza
Questo filtro identifica i segmenti in cui la lunghezza è significativamente più alta confrontando il segmento sorgente e il segmento di destinazione. Alcune traduzioni aumentano o diminuiscono in lunghezza quando si traducono da una lingua sorgente a una lingua di destinazione. Traduzioni troppo lunghe o troppo corte possono indicare segmenti di bassa qualità.
Se la lingua sorgente non è simile al CJK e la lingua di destinazione lo è (o viceversa), questo filtro verrà ignorato.CJK
Alcune lingue sono più verbose di altre, quindi il 200% è un buon valore predefinito. Se la lingua di destinazione è simile alla lingua sorgente, o se è necessario filtrare più dati, il valore può essere inferiore.
Esempi:
Una lingua è CJK - il rapporto è 1. Non verrà scartato:
{"source": "Questa è una frase.", "target": "这是一个句子。", "ratio": 1}
La traduzione tedesca ha una lunghezza comparabile rispetto alla sorgente inglese e non verrà scartata:
{"source": "Questa è una frase.", "target": "Dies ist ein Satz.", "ratio": 1.1}
La traduzione tedesca è molto più lunga della sorgente inglese e verrà scartata:
{"source": "Questa è una frase.", "target": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}
Non traducibili
I non traducibili sono segmenti in cui i segmenti di origine e destinazione sono gli stessi. Esclude tutte le coppie di frasi non traducibili in cui il testo di destinazione rimane invariato rispetto al testo di origine.
Duplicati
Vengono creati gruppi di segmenti che hanno la stessa frase di origine. Da ciascun gruppo, viene mantenuto solo il miglior segmento, quindi se la frase di origine di un segmento è unica, viene automaticamente mantenuta. Altrimenti, viene mantenuto il segmento con il punteggio di similarità più alto.
Quasi duplicati
Quando si testa per i quasi duplicati, la frase di origine (versione leggermente più pulita) viene normalizzata; tutti i caratteri non alfabetici (alcuni esempi: “,?)!-) vengono sostituiti con uno spazio e tutte le lettere vengono rese minuscole.
Utilizzando la frase di origine normalizzata, vengono creati gruppi di segmenti che hanno la stessa frase di origine normalizzata. Da ciascun gruppo, viene mantenuto solo il miglior segmento, quindi la frase di origine normalizzata di un segmento è unica e viene automaticamente mantenuta. Altrimenti, viene mantenuto il segmento con il punteggio di similarità più alto.
Identificazione della lingua
Un motore IA viene utilizzato per identificare la lingua di origine e di destinazione in base alle frasi. Un segmento viene rimosso solo se il motore riconosce una lingua (di origine/destinazione) (ad esempio, frasi più brevi spesso non sono sufficienti per il motore per determinare una lingua) e la lingua è diversa da quella prevista.
QPS
Il filtro QPS rende possibile rimuovere le coppie di frasi di qualità più bassa nella memoria di traduzione per garantire che i segmenti risultanti siano della massima qualità.
Il filtro QPS può essere configurato in due modi:
-
Rimuovendo una percentuale specificata di coppie di frasi con i punteggi QPS più bassi. La raccomandazione è del 10%.
-
Selezionando una soglia di punteggio. Usa le impostazioni avanzate per eliminare le coppie di frasi che scendono al di sotto di una soglia QPS regolabile. Il punto di partenza raccomandato è 50.
Queste due opzioni forniscono una curatela automatizzata della memoria di traduzione per allinearsi con gli obiettivi di qualità degli utenti.
Il processo di pulizia della memoria di traduzione, che può richiedere diverse ore, deve essere completato prima che una TM curata possa essere utilizzata.
Per usare una TM curata in TMS, segui questi passaggi:
Questo attiverà un processo di esportazione del dataset che richiederà solo pochi minuti. La TM curata risultante in formato .TMX può essere quindi caricata in TMS come una nuova TM curata fino a 1 Gb di dimensione.
Se sono stati eseguiti due o più processi di pulizia sulla stessa TM, versioni diverse possono essere accessibili nella scheda .