Custom AI

Crea un Dataset

Contenuti tradotti automaticamente dall'inglese con Phrase Language AI.

Linee guida per la selezione della memoria di traduzione

L'AI personalizzata Phrase sfrutta le memorie di traduzione (TM) per creare modelli di traduzione automatica (MT) personalizzati che aderiscono a terminologie e stili specifici, portando a una qualità di traduzione migliorata (e quindi a tempi di post-editing ridotti) per questi tipi di contenuto rispetto alla traduzione automatica generica.

Il fattore più importante che può influenzare l'efficacia del processo di personalizzazione sono le memorie di traduzione utilizzate. Queste sono linee guida generali che possono aiutare a determinare quali dati utilizzare per questo scopo:

  • Dominio singolo:

    È meglio se il dataset si concentra su contenuti che coprono un unico stile e terminologia. Se il dataset contiene una miscela di domini (ad esempio, sia i termini legali di un sito web che le descrizioni dei prodotti), il modello può fallire nell'apprendere quale sia lo stile desiderato.

  • Tipo di contenuto unico:

    Il modello MT personalizzato si basa su modelli generici addestrati su enormi quantità di dati pubblici raccolti da internet. Se la memoria di traduzione contiene dati che sono abbastanza simili ai dati generici utilizzati per costruire i modelli generici, non ci sarà molto da guadagnare dal processo di personalizzazione.

  • Qualità dei dati:

    Il modello assumerà che ogni coppia di frasi nella memoria di traduzione sia un esempio dell'output che ci si aspetta produca. La memoria di traduzione deve essere di buona qualità, idealmente creata da traduzioni professionali umane. Il pipeline di pulizia dei dati può aiutare a filtrare le parti più dannose del dataset.

  • Volume atteso:

    Affinché la personalizzazione sia impattante in termini di RoI, il dataset deve essere rappresentativo della maggior parte dei dati in cui la qualità MT avrà un impatto maggiore. Ad esempio, se parte dell'output MT deve essere post-editato da traduttori umani, per massimizzare il RoI i dati devono essere rappresentativi del contenuto che sarà post-editato.

Creare un dataset per curazione automatizzata delle risorse ha un processo leggermente diverso.

Per creare un dataset per scopi di addestramento di un motore MT personalizzato, seguire questi passaggi:

  1. Dalla pagina Dataset, fai clic su Allena un motore MT personalizzato.

    Si apre la pagina Dettagli del dataset.

  2. Fornisci un nome per il dataset.

  3. I selettori di lingua consentono varie opzioni:

    1. Per creare un dataset di lingua generale, seleziona le stesse lingue di origine e destinazione nei selettori di lingua e impostazioni locali.

    2. Per creare un dataset specifico per le impostazioni locali, seleziona le lingue di origine e destinazione dal primo elenco a discesa, quindi specifica le impostazioni locali di origine e destinazione dal secondo elenco a discesa.

      Possono essere aggiunte anche più impostazioni locali di destinazione (cioè varianti diverse della stessa lingua) per sfruttare più fonti di dati.

    3. Per creare un dataset con più impostazioni locali di origine e destinazione, seleziona le lingue di origine e destinazione dal primo elenco a discesa, specifica le impostazioni locali di origine e destinazione dal secondo elenco a discesa (possono essere aggiunte varianti diverse della stessa lingua di destinazione) e fai clic su + Aggiungi altre coppie di impostazioni locali.

    Appare la finestra Dati di input.

  4. Fai clic su Aggiungi memorie di traduzione.

    Si apre la pagina Scegli memorie di traduzione con una funzionalità di ricerca Search.

  5. Per aggiungere una TM al dataset, fai clic sull'icona Add TM. La TM viene aggiunta alla colonna Selezionati.

    Possono essere aggiunte più TM fino a un massimo di 200 TM e un massimo di 8 milioni di segmenti. Un dataset dovrebbe idealmente contenere almeno 10.000 segmenti.

    Facendo clic sul nome della TM verrà presentata la selezione nella pagina della memoria di traduzione.

    Fai clic sull'icona Remove TM per rimuovere la TM dalla colonna Selezionati.

  6. Clicca su Salva.

    Si apre la pagina Dettagli del dataset.

  7. Esamina i dettagli come presentati e, se corretti, fai clic su Continua.

    Si apre la pagina Filtri di pulizia.

  8. Applica i filtri richiesti e fai clic su Crea.

    Il dataset è creato e aggiunto all'elenco nella pagina Datasets con lo stato iniziale di Pulizia e lo stato di Formazione MT nella colonna Creato per.

Questo articolo ti è stato utile?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.