Linee guida per la selezione della memoria di traduzione
L'AI personalizzata Phrase sfrutta le memorie di traduzione (TM) per creare modelli di traduzione automatica (MT) personalizzati che aderiscono a terminologie e stili specifici, portando a una qualità di traduzione migliorata (e quindi a tempi di post-editing ridotti) per questi tipi di contenuto rispetto alla traduzione automatica generica.
Il fattore più importante che può influenzare l'efficacia del processo di personalizzazione sono le memorie di traduzione utilizzate. Queste sono linee guida generali che possono aiutare a determinare quali dati utilizzare per questo scopo:
-
Dominio singolo:
È meglio se il dataset si concentra su contenuti che coprono un unico stile e terminologia. Se il dataset contiene una miscela di domini (ad esempio, sia i termini legali di un sito web che le descrizioni dei prodotti), il modello può fallire nell'apprendere quale sia lo stile desiderato.
-
Tipo di contenuto unico:
Il modello MT personalizzato si basa su modelli generici addestrati su enormi quantità di dati pubblici raccolti da internet. Se la memoria di traduzione contiene dati che sono abbastanza simili ai dati generici utilizzati per costruire i modelli generici, non ci sarà molto da guadagnare dal processo di personalizzazione.
-
Qualità dei dati:
Il modello assumerà che ogni coppia di frasi nella memoria di traduzione sia un esempio dell'output che ci si aspetta produca. La memoria di traduzione deve essere di buona qualità, idealmente creata da traduzioni professionali umane. Il pipeline di pulizia dei dati può aiutare a filtrare le parti più dannose del dataset.
-
Volume atteso:
Affinché la personalizzazione sia impattante in termini di RoI, il dataset deve essere rappresentativo della maggior parte dei dati in cui la qualità MT avrà un impatto maggiore. Ad esempio, se parte dell'output MT deve essere post-editato da traduttori umani, per massimizzare il RoI i dati devono essere rappresentativi del contenuto che sarà post-editato.
Creare un dataset per curazione automatizzata delle risorse ha un processo leggermente diverso.
Per creare un dataset per scopi di addestramento di un motore MT personalizzato, seguire questi passaggi:
-
Dalla pagina , fai clic su Allena un motore MT personalizzato.
Si apre la pagina .
-
Fornisci un nome per il dataset.
-
I selettori di lingua consentono varie opzioni:
-
Per creare un dataset di lingua generale, seleziona le stesse lingue di origine e destinazione nei selettori di lingua e impostazioni locali.
-
Per creare un dataset specifico per le impostazioni locali, seleziona le lingue di origine e destinazione dal primo elenco a discesa, quindi specifica le impostazioni locali di origine e destinazione dal secondo elenco a discesa.
Possono essere aggiunte anche più impostazioni locali di destinazione (cioè varianti diverse della stessa lingua) per sfruttare più fonti di dati.
-
Per creare un dataset con più impostazioni locali di origine e destinazione, seleziona le lingue di origine e destinazione dal primo elenco a discesa, specifica le impostazioni locali di origine e destinazione dal secondo elenco a discesa (possono essere aggiunte varianti diverse della stessa lingua di destinazione) e fai clic su + Aggiungi altre coppie di impostazioni locali.
Appare la finestra .
-
-
Fai clic su Aggiungi memorie di traduzione.
Si apre la pagina con una funzionalità di ricerca
.
-
Per aggiungere una TM al dataset, fai clic sull'icona
. La TM viene aggiunta alla colonna .
Possono essere aggiunte più TM fino a un massimo di 200 TM e un massimo di 8 milioni di segmenti. Un dataset dovrebbe idealmente contenere almeno 10.000 segmenti.
Facendo clic sul nome della TM verrà presentata la selezione nella pagina della memoria di traduzione.
Fai clic sull'icona
per rimuovere la TM dalla colonna .
-
Clicca su Salva.
Si apre la pagina .
-
Esamina i dettagli come presentati e, se corretti, fai clic su Continua.
Si apre la pagina .
-
Applica i filtri richiesti e fai clic su Crea.
Il dataset è creato e aggiunto all'elenco nella pagina con lo stato iniziale di e lo stato di nella colonna .