Linee guida per la selezione della memoria di traduzione
Phrase Custom AI sfrutta le memorie di traduzione (TMS) per creare modelli di traduzione automatica (MT) personalizzati che rispettano la terminologia e lo stile specifici, con conseguente miglioramento della qualità della traduzione (e quindi riduzione dei tempi di post-editing) per questi tipi di contenuti rispetto alla traduzione automatica generica.
Il fattore più importante che può influenzare l'efficacia del processo di personalizzazione sono le memorie di traduzione utilizzate. Queste sono linee Guida generali che possono guidare nella determinazione dei dati da usare a tale scopo:
-
Singola dominio:
È meglio se il set di dati si concentra sui contenuti che coprono un unico stile e terminologia. Se il set di dati contiene una combinazione di domini (ad esempio, sia i termini legali di un sito Web che le descrizioni dei prodotti) il modello può non imparare qual è lo stile desiderato.
-
Tipo di contenuto unico:
Il modello MT personalizzato si basa su modelli generici addestrati su grandi quantità di dati pubblici raccolti da Internet. Se la memoria di traduzione contiene dati abbastanza simili ai dati generici utilizzati per costruire i modelli generici, non ci sarà molto da guadagnare dal processo di personalizzazione.
-
Qualità dei dati:
Il modello assumerà che ogni coppia di frasi nella memoria di traduzione sia un esempio dell'output che ci si aspetta che produca. La memoria di traduzione deve essere di buona qualità, idealmente creata da traduzioni umane Professional. La pipeline di pulizia dei dati può essere una Guida per filtrare le parti più dannose del set di dati.
-
Volume previsto:
Affinché la personalizzazione sia d’impatto in termini di RoI, il set di dati deve essere rappresentativo della maggior parte dei dati in cui la qualità MT avrà maggiore impatto. Ad esempio, se parte dell'output MT deve essere post-editato da traduttori umani, per massimizzare il RoI i dati devono essere rappresentativi del contenuto che verrà post-editato.
La creazione di un set di dati per la cura automatizzata degli asset ha un processo leggermente diverso.
Per creare un set di dati allo scopo di addestrare un motore MT personalizzato, segui i passaggi riportati di seguito:
-
Dalla pagina dei Addestrare un motore MT personalizzato.
fare clic suSi aprirà la pagina
di dati. -
Indica un nome per il set di dati.
-
I selettori di lingua consentono varie opzioni:
-
Per creare un set di dati di lingua generale, seleziona le stesse lingue di origine e destinazione nei selettori di lingua di origine e destinazione e impostazioni locali.
-
Per creare un set di dati specifico per le impostazioni locali, seleziona le lingue di origine e di destinazione dal primo elenco a discesa, quindi specifica le impostazioni locali di origine e di destinazione dal secondo elenco a discesa.
È anche possibile aggiungere più impostazioni locali di destinazione per sfruttare più origini di dati.
-
Per creare un set di dati con più impostazioni locali di origine e destinazione, selezionare le lingue di origine e destinazione dal primo elenco a discesa, specificare le impostazioni locali di origine e destinazione dal secondo elenco a discesa (è possibile aggiungere impostazioni locali di destinazione multiple) e fare clic su + Aggiungi altre impostazioni locali.
Appare la finestra
. -
-
Fai clic su Aggiungi memorie di traduzione.
La pagina
traduzione si apre con unadi funzionalità di ricerca.
-
Per aggiungere una TM al set di dati, fare clic sull’icona
. La TM viene aggiunta alla colonna .
È possibile aggiungere TMS multiple fino a un massimo di 200 TMS e un massimo di 8 milioni di segmenti. Un set di dati dovrebbe idealmente contenere almeno 10.000 segmenti.
Facendo clic sul nome della TM, la selezione verrà visualizzata nella pagina memoria di traduzione.
Fai clic sull’icona del
per rimuovere la TM dalla colonna .
-
Fai clic su Salva.
Si aprirà la pagina
di dati. -
Rivedi i dettagli come presentati e, se corretti, fai clic su Continua.
Si apre la pagina
. -
Applica i filtri necessari e fai clic su Crea.
Il set di dati viene creato e aggiunto all'elenco nella pagina Set di
con lo stato iniziale di e lo stato di nella colonna .