Le metriche di valutazione automatizzata svolgono un ruolo cruciale nella valutazione della qualità delle traduzioni prodotte dai sistemi di traduzione automatica. A differenza delle valutazioni umane, che possono essere soggettive e richiedere tempo, le metriche automatizzate forniscono un modo rapido, obiettivo e ripetibile per valutare le prestazioni dei sistemi MT.
Phrase Custom IA incorpora diverse metriche automatizzate ben consolidate per valutare la qualità della traduzione automatica: BLEU, TER, chrf3 e COMET.
Si consiglia di implementare sistemi personalizzati in un ambiente di produzione se entrambe le seguenti condizioni sono soddisfatte:
-
BLEU miglioramento di almeno 5 punti (assoluto, ad esempio 40 contro 35), o chrf miglioramento di almeno 4 punti.
-
Nessuna diminuzione significativa del punteggio COMET.
Nella maggior parte dei casi, miglioramenti di questa entità sono facilmente percepibili per i traduttori umani e portano a tempi di post-editing migliorati.
Approccio Raccomandato
In generale, i valori assoluti delle metriche variano a seconda della combinazione linguistica, del dominio e di altri fattori. Per valutare quanto sia stato efficace il processo di personalizzazione, esaminare la differenza tra i punteggi del sistema generico e di quello personalizzato.
BLEU, chrf e TER misurano tutti la sovrapposizione delle stringhe tra le uscite MT e le traduzioni di riferimento. Per definizione, un miglioramento significativo in questi punteggi implica un minore sforzo di post-editing per i traduttori.
COMET misura la qualità della traduzione in senso generale. COMET non aumenterà necessariamente dopo la personalizzazione (il sistema personalizzato può produrre traduzioni di qualità simile, la differenza è se le traduzioni corrispondono allo stile, al tono di voce, alla terminologia del cliente, ecc.). Tuttavia, una diminuzione significativa di COMET può segnalare un problema con il sistema personalizzato.
Metriche Disponibili
Phrase Custom IA incorpora diverse metriche automatizzate ben consolidate per valutare la qualità della traduzione automatica: BLEU, TER, chrf3 e COMET. Ognuna di queste metriche offre un approccio unico per valutare la qualità della traduzione, soddisfacendo diversi aspetti della traduzione.
COMET (Metriche Ottimizzate Cross-linguali per la Valutazione della Traduzione)
-
Panoramica
COMET è una metrica più recente che impiega modelli di apprendimento automatico per valutare le traduzioni. A differenza delle metriche tradizionali, non si basa esclusivamente su confronti testuali superficiali.
-
Meccanismo di Funzionamento
COMET utilizza un modello di rete neurale addestrato su ampi dataset di giudizi umani. Valuta le traduzioni considerando vari aspetti della qualità della traduzione, tra cui fluidità, adeguatezza e preservazione del significato.
-
Casi d'uso
COMET è efficace in scenari in cui è necessaria una comprensione più profonda della qualità della traduzione. È particolarmente utile per valutare le traduzioni in cui l'accuratezza contestuale e semantica è più importante della corrispondenza letterale parola per parola.
BLEU (Valutazione Bilingue Sostitutiva)
-
Panoramica
BLEU, una delle metriche più antiche e ampiamente utilizzate, valuta la qualità del testo tradotto automaticamente confrontandolo con una o più traduzioni di riferimento di alta qualità. BLEU misura la corrispondenza delle frasi tra il testo generato dalla macchina e i testi di riferimento, concentrandosi sulla precisione delle corrispondenze delle parole.
-
Meccanismo di Funzionamento
BLEU calcola la precisione degli n-gram per varie lunghezze di n-gram (tipicamente da 1 a 4 parole) e poi combina questi punteggi utilizzando una media geometrica. Incorpora anche una penalità di brevità per affrontare il problema delle traduzioni eccessivamente brevi.
-
Casi d'uso
BLEU è particolarmente efficace per valutare le traduzioni in cui è importante la corrispondenza esatta delle frasi e l'ordine delle parole. Tuttavia, la sua dipendenza da corrispondenze esatte può essere una limitazione nel catturare la qualità di traduzioni più fluide o idiomatiche.
TER (Tasso di Modifica della Traduzione)
-
Panoramica
TER è una metrica che misura il numero di modifiche necessarie per trasformare un testo tradotto automaticamente in una traduzione di riferimento. Si basa sul concetto di distanza di modifica e include operazioni come inserimenti, cancellazioni e sostituzioni. A differenza di altre metriche in questo elenco, un punteggio TER più basso indica una traduzione migliore.
-
Meccanismo di Funzionamento
TER calcola il numero minimo di modifiche necessarie per trasformare la traduzione automatica in una delle traduzioni di riferimento. Il punteggio è quindi normalizzato dal numero totale di parole nella traduzione di riferimento.
-
Casi d'uso
TER è utile per valutare le traduzioni in cui l'attenzione è rivolta alla quantità di lavoro di post-editing richiesto. È particolarmente rilevante in scenari in cui le traduzioni saranno post-editate da esseri umani.
chrf3 (F-score n-gram di caratteri)
-
Panoramica
chrf3, o F-score n-gram di caratteri, è una metrica che valuta le traduzioni basandosi sugli n-gram di caratteri. Considera sia la precisione che il richiamo, fornendo un equilibrio tra i due.
-
Meccanismo di Funzionamento
chrf3 calcola l'F-score, una media armonica di precisione e richiamo, basata sulla sovrapposizione degli n-gram di caratteri tra la traduzione automatica e il testo di riferimento.
-
Casi d'uso
chrf3 è vantaggioso per le lingue in cui la segmentazione delle parole è difficile o per le lingue morfologicamente ricche. È anche meno sensibile all'ordine delle parole rispetto a BLEU, rendendolo più flessibile nella valutazione delle traduzioni con frasi diverse ma accettabili.
Intervalli di punteggio
I valori assoluti delle metriche variano significativamente a seconda della combinazione linguistica, del dominio e di altri fattori. È quindi difficile stabilire linee guida generali per interpretare i valori dei punteggi e gli utenti dovrebbero decidere principalmente in base alle differenze tra il sistema generico e quello personalizzato (valutato su un dataset identico).
Questa tabella può essere considerata un utile punto di partenza per interpretare i valori delle singole metriche:
-
Punteggi al di sotto della soglia di MT di bassa qualità possono indicare problemi seri e tali sistemi non dovrebbero generalmente essere implementati senza ulteriori analisi.
-
Punteggi che superano la soglia per la MT di alta qualità indicano tipicamente un sistema molto performante che produce traduzioni fluide e adeguate.
|
Metrica |
Periodo |
Soglia di MT di bassa qualità |
Soglia di MT di alta qualità |
|---|---|---|---|
|
COMET |
Tipicamente da 0 a 1 |
< 0,3 |
> 0,8 |
|
BLEU |
0 a 100 |
< 15 |
> 50 |
|
TER |
0 a 100, più basso è meglio |
> 70 |
< 30 |
|
chrf3 |
0 a 100 |
< 20 |
> 60 |