Crea un Dataset

Contenuti tradotti automaticamente dall'inglese con Phrase Language AI.

Linee guida per la selezione della memoria di traduzione

Phrase IA Personalizzata sfrutta le memoria di traduzione (TM) per creare modelli di traduzione automatica (MT) personalizzati che aderiscono a terminologia e stile specifici, portando a una migliore qualità della traduzione (e quindi a tempi di post-editing ridotti) per questi tipi di contenuto rispetto alla traduzione automatica generica.

Il fattore più importante che può influenzare l'efficacia del processo di personalizzazione è la memoria di traduzione utilizzata. Queste sono linee guida generali che possono aiutare a determinare quali dati usare per questo scopo:

Dominio singolo:

È meglio se il dataset si concentra su contenuto che copre uno stile e una terminologia singoli. Se il dataset contiene una miscela di domini (ad esempio, sia i termini legali di un sito web che le descrizioni dei prodotti), il motore può non riuscire a imparare quale sia lo stile desiderato.
Tipo di contenuto univoco:

Il motore MT Personalizzato si basa su modelli generici addestrati su enormi quantità di dati pubblici raccolti da Internet. Se la memoria di traduzione contiene dati piuttosto simili ai dati generici usati per costruire i modelli generici, non ci sarà molto da guadagnare dal processo di personalizzazione.
Qualità dei dati:

Il motore presumerà che ogni coppia di frasi nella memoria di traduzione sia un esempio dell'output che ci si aspetta che produca. La memoria di traduzione deve essere di buona qualità, idealmente creata da traduzioni umane professionali. La pipeline di pulizia dei dati può aiutare a filtrare le parti più dannose del dataset.
Volume previsto:

Affinché la personalizzazione sia efficace in termini di ROI, il dataset deve essere rappresentativo della maggior parte dei dati in cui la qualità della MT avrà un impatto maggiore. Ad esempio, se parte dell'output della MT deve essere sottoposto a post-editing da traduttori umani, per massimizzare il ROI i dati devono essere rappresentativi del contenuto che sarà sottoposto a post-editing.

Creare un dataset per l'automazione della cura degli asset ha un processo leggermente diverso.

Per Crea un dataset allo scopo di addestrare un motore MT Personalizzato, segui questi passaggi:

Dalla pagina Datasets, fare clic su Train a custom MT engine.

Si apre la pagina Dataset details.
Fornire un nome per il dataset.
I selettori di lingua consentono varie opzioni:
1. Per creare un dataset di lingua generale, selezionare la stessa lingua di origine e di destinazione nei selettori di lingua e impostazioni locali di origine e destinazione.
2. Per creare un dataset specifico per le impostazioni locali, selezionare la lingua di origine e di destinazione dal primo elenco a discesa, quindi specificare le impostazioni locali di origine e di destinazione dal secondo elenco a discesa.
  
  È possibile aggiungere anche più impostazioni locali di destinazione (ovvero diverse varianti della stessa lingua) per sfruttare più origini dati.
3. Per creare un dataset con più impostazioni locali di origine e di destinazione, selezionare la lingua di origine e di destinazione dal primo elenco a discesa, specificare le impostazioni locali di origine e di destinazione dal secondo elenco a discesa (è possibile aggiungere diverse varianti della stessa lingua di destinazione) e fare clic su + Add more locale pairs.
Viene visualizzata la finestra Input data.
Fare clic su Add translation memories.

Si apre la pagina Choose translation memories con una funzionalità di ricerca .
Per aggiungere una TM al dataset, fare clic sull'icona . La TM viene aggiunta alla colonna Selected.

È possibile aggiungere più TM fino a un massimo di 200 TM e un massimo di 8 milioni di segmenti. Un dataset dovrebbe idealmente contenere almeno 10.000 segmenti.

Facendo clic sul nome della TM verrà presentata la selezione nella translation memory page.

Fare clic sull'icona per rimuovere la TM dalla colonna Selected.
Clicca su Salva.

Si apre la pagina Dataset details.
Rivedere i dettagli come presentati e, se corretti, fare clic su Continue.

Si apre la pagina Cleaning filters.
Applicare i filtri richiesti e fare clic su Create.

Il dataset viene creato e aggiunto all'elenco nella pagina Datasets con lo stato iniziale di Cleaning e lo stato di Training MT nella colonna Created for.