Automatisierte Bewertungsmetriken spielen eine entscheidende Rolle bei der Bewertung der Qualität von Übersetzungen, die von maschinellen Übersetzungssystemen erzeugt werden. Im Gegensatz zu menschlichen Bewertungen, die subjektiv und zeitaufwendig sein können, bieten automatisierte Metriken eine schnelle, objektive und wiederholbare Möglichkeit, die Leistung von MT-Systemen zu beurteilen.
Phrase Custom KI integriert mehrere etablierte automatisierte Metriken zur Bewertung der Qualität maschineller Übersetzungen: BLEU, TER, chrf3 und COMET.
Es wird empfohlen, angepasste Systeme in einer Produktionsumgebung einzusetzen, wenn beide der folgenden Bedingungen erfüllt sind:
-
BLEU Verbesserung von mindestens 5 Punkten (absolut, z.B. 40 vs 35) oder chrf Verbesserung von mindestens 4 Punkten.
-
Keine signifikante Abnahme des COMET-Scores.
In den meisten Fällen sind Verbesserungen dieser Größenordnung für menschliche Übersetzer leicht erkennbar und führen zu verkürzten Post-Editing-Zeiten.
Empfohlener Ansatz
Im Allgemeinen variieren die absoluten Werte der Metriken je nach Sprachpaar, Fachbereich und anderen Faktoren. Um zu beurteilen, wie erfolgreich der Anpassungsprozess war, untersuchen Sie den Unterschied zwischen den Scores des generischen und des angepassten Systems.
BLEU, chrf und TER messen alle die Zeichenfolgenüberlappung zwischen den MT-Ausgaben und den Referenzübersetzungen. Per Definition impliziert eine signifikante Verbesserung dieser Scores weniger Post-Editing-Aufwand für Übersetzer.
COMET misst die Übersetzungsqualität im allgemeinen Sinne. COMET wird nach der Anpassung nicht unbedingt steigen (das angepasste System kann Übersetzungen ähnlicher Qualität ausgeben, der Unterschied besteht darin, ob die Übersetzungen dem Stil, dem Tonfall, der Terminologie usw. des Kunden entsprechen). Eine signifikante Abnahme von COMET kann jedoch auf ein Problem mit dem angepassten System hinweisen.
Verfügbare Metriken
Phrase Custom KI integriert mehrere etablierte automatisierte Metriken zur Bewertung der Qualität maschineller Übersetzungen: BLEU, TER, chrf3 und COMET. Jede dieser Metriken bietet einen einzigartigen Ansatz zur Bewertung der Übersetzungsqualität und berücksichtigt verschiedene Aspekte der Übersetzung.
COMET (Cross-lingual Optimized Metric for Evaluation of Translation)
-
Überblick
COMET ist eine neuere Kennzahl, die maschinelles Lernen verwendet, um Übersetzungen zu bewerten. Im Gegensatz zu traditionellen Kennzahlen verlässt sie sich nicht ausschließlich auf oberflächliche Textvergleiche.
-
Funktionsweise
COMET verwendet ein neuronales Netzwerkmodell, das auf großen Datensätzen menschlicher Bewertungen trainiert wurde. Es bewertet Übersetzungen, indem es verschiedene Aspekte der Übersetzungsqualität berücksichtigt, einschließlich Flüssigkeit, Angemessenheit und die Bewahrung der Bedeutung.
-
Anwendungsfälle
COMET ist effektiv in Szenarien, in denen ein tieferes Verständnis der Übersetzungsqualität erforderlich ist. Es ist besonders nützlich zur Bewertung von Übersetzungen, bei denen kontextuelle und semantische Genauigkeit wichtiger sind als wörtliche Entsprechungen.
BLEU (Bilingual Evaluation Understudy)
-
Überblick
BLEU, eine der frühesten und am weitesten verbreiteten Kennzahlen, bewertet die Qualität von maschinell übersetztem Text, indem sie ihn mit einer oder mehreren hochwertigen Referenzübersetzungen vergleicht. BLEU misst die Übereinstimmung von Phrasen zwischen dem maschinell erzeugten Text und den Referenztexten und konzentriert sich auf die Präzision der Wortübereinstimmungen.
-
Funktionsweise
BLEU berechnet die n-Gramm-Präzision für verschiedene n-Gramm-Längen (typischerweise 1 bis 4 Wörter) und kombiniert diese Werte dann mit einem geometrischen Mittel. Es beinhaltet auch eine Kürzungsstrafe, um das Problem übermäßig kurzer Übersetzungen zu adressieren.
-
Anwendungsfälle
BLEU ist besonders effektiv zur Bewertung von Übersetzungen, bei denen die genaue Übereinstimmung von Phrasen und Wortreihenfolge wichtig ist. Allerdings kann die Abhängigkeit von genauen Übereinstimmungen eine Einschränkung bei der Erfassung der Qualität flüssiger oder idiomatischer Übersetzungen sein.
TER (Translation Edit Rate)
-
Überblick
TER ist eine Kennzahl, die die Anzahl der Änderungen misst, die erforderlich sind, um einen maschinell übersetzten Text in eine Referenzübersetzung zu ändern. Sie basiert auf dem Konzept der Editierdistanz und umfasst Operationen wie Einfügungen, Löschungen und Ersetzungen. Im Gegensatz zu anderen Kennzahlen in dieser Liste bedeutet ein niedrigerer TER-Wert eine bessere Übersetzung.
-
Funktionsweise
TER berechnet die minimale Anzahl von Änderungen, die erforderlich sind, um die maschinelle Übersetzung in eine der Referenzübersetzungen zu transformieren. Die Kennzahl wird dann durch die Gesamtanzahl der Wörter in der Referenzübersetzung normalisiert.
-
Anwendungsfälle
TER ist nützlich zur Bewertung von Übersetzungen, bei denen der Fokus auf der Menge an Post-Editing-Arbeit liegt, die erforderlich ist. Es ist besonders relevant in Szenarien, in denen Übersetzungen von Menschen nachbearbeitet werden.
chrf3 (Character n-gram F-Score)
-
Überblick
chrf3, oder Character n-gram F-Score, ist eine Kennzahl, die Übersetzungen basierend auf Zeichen-n-Grammen bewertet. Es berücksichtigt sowohl Präzision als auch Rückruf und bietet ein Gleichgewicht zwischen beiden.
-
Funktionsweise
chrf3 berechnet den F-Score, ein harmonisches Mittel von Präzision und Rückruf, basierend auf der Überlappung von Zeichen-n-Grammen zwischen der maschinellen Übersetzung und dem Referenztext.
-
Anwendungsfälle
chrf3 ist vorteilhaft für Sprachen, bei denen die Wortsegmentierung herausfordernd ist oder für morphologisch reiche Sprachen. Es ist auch weniger empfindlich gegenüber der Wortreihenfolge als BLEU, was es flexibler macht bei der Bewertung von Übersetzungen mit unterschiedlichen, aber akzeptablen Formulierungen.
Kennzahlbereiche
Die absoluten Werte der Kennzahlen variieren erheblich je nach Sprachpaar, Fachbereich und anderen Faktoren. Es ist daher schwierig, allgemeine Richtlinien zur Interpretation von Kennzahlwerten aufzustellen, und die Benutzer sollten hauptsächlich basierend auf den Unterschieden zwischen dem generischen und dem angepassten System entscheiden (bewertet auf einem identischen Datensatz).
Diese Tabelle kann als nützlicher Ausgangspunkt zur Interpretation der Werte der einzelnen Kennzahlen betrachtet werden:
-
Werte unterhalb der Schwelle für qualitativ minderwertige maschinelle Übersetzungen können auf ernsthafte Probleme hinweisen, und solche Systeme sollten typischerweise nicht ohne weitere Analyse eingesetzt werden.
-
Werte, die die Schwelle für qualitativ hochwertige maschinelle Übersetzungen überschreiten, deuten typischerweise auf ein sehr gut funktionierendes System hin, das fließende und angemessene Übersetzungen produziert.
|
Kennzahl |
Bereich |
Schwelle für qualitativ minderwertige maschinelle Übersetzungen |
Schwelle für qualitativ hochwertige maschinelle Übersetzungen |
|---|---|---|---|
|
KOMET |
Typischerweise 0 bis 1 |
< 0,3 |
> 0,8 |
|
BLEU |
0 bis 100 |
< 15 |
> 50 |
|
TER |
0 bis 100, je niedriger, desto besser |
> 70 |
< 30 |
|
chrf3 |
0 bis 100 |
< 20 |
> 60 |