Utilizzo delle metriche MT

Contenuti tradotti automaticamente dall'inglese con Phrase Language AI.

Le metriche di valutazione automatizzate svolgono un ruolo cruciale nella valutazione della qualità delle traduzioni prodotte dai sistemi di traduzione automatica. A differenza delle valutazioni umane, che possono essere soggettive e richiedere molto tempo, le metriche automatizzate forniscono un modo rapido, oggettivo e ripetibile per misurare le prestazioni dei sistemi MT.

Phrase Custom IA incorpora diverse metriche automatizzate ben consolidate per valutare la qualità della traduzione automatica: BLEU, TER, chrf3 e COMET.

Si consiglia di distribuire i sistemi personalizzati in un ambiente di produzione se sono soddisfatte entrambe le seguenti condizioni:

BLEU miglioramento di almeno 5 punti (assoluti, ad es. 40 contro 35), o chrf miglioramento di almeno 4 punti.
Nessuna diminuzione significativa del punteggio COMET.

Nella maggior parte dei casi, miglioramenti di questa entità sono facilmente notabili per i traduttori umani e portano a tempi di post-editing migliorati.

Approccio consigliato

In generale, i valori assoluti delle metriche variano a seconda della combinazione linguistica, del dominio e di altri fattori. Per valutare il successo del processo di personalizzazione, esamina la differenza tra i punteggi del sistema generico e di quello personalizzato.

BLEU, chrf e TER misurano tutti la sovrapposizione di stringa tra gli output MT e le traduzioni di riferimento. Per definizione, un miglioramento significativo in questi punteggi implica un minor sforzo di post-editing per i traduttori.

COMET misura la qualità della traduzione in senso generale. COMET non aumenterà necessariamente dopo la personalizzazione (il sistema personalizzato potrebbe produrre output di qualità simile, la differenza sta nel fatto che le traduzioni corrispondano allo stile, al tono di voce, alla terminologia ecc. del cliente). Tuttavia, una diminuzione significativa di COMET potrebbe segnalare un problema con il sistema personalizzato.

Metriche disponibili

Phrase Custom IA incorpora diverse metriche automatizzate ben consolidate per valutare la qualità della traduzione automatica: BLEU, TER, chrf3 e COMET. Ognuna di queste metriche offre un approccio unico alla valutazione della qualità della traduzione, occupandosi di diversi aspetti della traduzione.

COMET (Cross-lingual Optimized Metric for Evaluation of Translation)

Overview

COMET è una metrica più recente che impiega modelli di apprendimento automatico per valutare le traduzioni. A differenza delle metriche tradizionali, non si basa esclusivamente su confronti testuali a livello superficiale.
Working Mechanism

COMET utilizza un modello di rete neurale addestrato su ampi set di dati di giudizi umani. Valuta le traduzioni considerando vari aspetti della qualità della traduzione, tra cui fluidità, adeguatezza e conservazione del significato.
Casi d'uso

COMET è efficace in scenari in cui è richiesto un riferimento più approfondito della qualità della traduzione. È particolarmente utile per valutare traduzioni in cui l'accuratezza contestuale e semantica sono più importanti della corrispondenza letterale parola per parola.

BLEU (Bilingual Evaluation Understudy)

Overview

BLEU, una delle metriche più antiche e ampiamente utilizzate, valuta la qualità del testo tradotto automaticamente confrontandolo con uno o più traduzioni di riferimento di alta qualità. BLEU misura la corrispondenza delle frasi tra il testo generato dalla macchina e i testi di riferimento, concentrandosi sulla precisione delle corrispondenze delle parole.
Working Mechanism

BLEU calcola la precisione n-gram per varie lunghezze di n-gram (tipicamente da 1 a 4 parole) e quindi combina questi punteggio utilizzando una media geometrica. Incorpora anche una penalità di brevità per affrontare il problema delle traduzioni eccessivamente brevi.
Casi d'uso

BLEU è particolarmente efficace per valutare traduzioni in cui la corrispondenza esatta delle frasi e dell'ordine delle parole è importante. Tuttavia, la sua dipendenza dalle corrispondenze esatte può rappresentare un limite nel catturare la qualità di traduzioni più fluide o idiomatiche.

TER (Translation Edit Rate)

Overview

TER è una metrica che misura il numero di Modifica necessarie per modificare un testo tradotto automaticamente in una traduzione di riferimento. Si basa sul concetto di distanza di Modifica e include operazioni come inserimenti, eliminazioni e sostituzioni. A differenza di altre metriche in questo elenco, un punteggio TER inferiore indica una traduzione migliore.
Working Mechanism

TER calcola il numero minimo di modifiche necessarie per trasformare la traduzione automatica in una delle traduzioni di riferimento. Il punteggio viene quindi normalizzato in base al numero totale di parole nella traduzione di riferimento.
Casi d'uso

TER è utile per valutare traduzioni in cui l'attenzione è rivolta alla quantità di lavoro di post-editing richiesto. È particolarmente rilevante in scenari in cui le traduzioni saranno sottoposte a post-editing da parte di esseri umani.

chrf3 (Punteggio F di n-grammi di carattere)

Overview

chrf3, o punteggio F di n-grammi di carattere, è una metrica che valuta le traduzioni basandosi su n-grammi a livello di carattere. Considera sia la precisione che il richiamo, fornendo un equilibrio tra i due.
Working Mechanism

chrf3 calcola il punteggio F, una media armonica di precisione e richiamo, basata sulla sovrapposizione di n-grammi di carattere tra la traduzione automatica e il testo di riferimento.
Casi d'uso

chrf3 è vantaggioso per le lingue in cui la segmentazione è complessa o per le lingue morfologicamente ricche. È inoltre meno sensibile all'ordine delle parole rispetto a BLEU, rendendolo più flessibile nella valutazione di traduzioni con formulazioni diverse ma accettabili.

Intervalli di punteggio

I valori assoluti delle metriche variano significativamente a seconda della combinazione linguistica, del dominio e di altri fattori. È quindi difficile stabilire linee guida generali per l'interpretazione dei valori di punteggio e gli utenti dovrebbero decidere principalmente in base alle differenze tra il sistema generico e quello personalizzato (valutato su un set di dati identico).

Questa tabella può essere considerata un utile punto di partenza per interpretare i valori delle singole metriche:

I punteggi al di sotto della soglia di MT di bassa qualità possono essere indicativi di gravi problemi e tali sistemi non dovrebbero solitamente essere distribuiti senza un'ulteriore analisi.
I punteggi che superano la soglia per MT di alta qualità indicano solitamente un sistema con ottime prestazioni che produce traduzioni fluenti e adeguate.

Metrica	Periodo	Soglia di MT di bassa qualità	Soglia di MT di alta qualità
COMET	Solitamente da 0 a 1	< 0.3	> 0,8
BLEU	da 0 a 100	< 15	> 50
TER	da 0 a 100, più basso è meglio	> 70	< 30
chrf3	da 0 a 100	< 20	> 60