Custom AI

Verwendung von MT-Metriken

Inhalte werden von Phrase Language AI maschinell aus dem Englischen übersetzt.

Automatisierte Bewertungsmetriken spielen eine entscheidende Rolle bei der Bewertung der Qualität von Übersetzungen, die von maschinellen Übersetzungssystemen erzeugt werden. Im Gegensatz zu menschlichen Bewertungen, die subjektiv und zeitaufwendig sein können, bieten automatisierte Metriken eine schnelle, objektive und wiederholbare Möglichkeit, die Leistung von MT-Systemen zu beurteilen.

Phrase Custom KI integriert mehrere etablierte automatisierte Metriken zur Bewertung der Qualität maschineller Übersetzungen: BLEU, TER, chrf3 und COMET.

Es wird empfohlen, angepasste Systeme in einer Produktionsumgebung einzusetzen, wenn beide der folgenden Bedingungen erfüllt sind:

  • BLEU Verbesserung von mindestens 5 Punkten (absolut, z.B. 40 vs 35) oder chrf Verbesserung von mindestens 4 Punkten.

  • Keine signifikante Abnahme des COMET-Scores.

In den meisten Fällen sind Verbesserungen dieser Größenordnung für menschliche Übersetzer leicht erkennbar und führen zu verkürzten Post-Editing-Zeiten.

Empfohlener Ansatz

Im Allgemeinen variieren die absoluten Werte der Metriken je nach Sprachpaar, Fachbereich und anderen Faktoren. Um zu beurteilen, wie erfolgreich der Anpassungsprozess war, untersuchen Sie den Unterschied zwischen den Scores des generischen und des angepassten Systems.

BLEU, chrf und TER messen alle die Zeichenfolgenüberlappung zwischen den MT-Ausgaben und den Referenzübersetzungen. Per Definition impliziert eine signifikante Verbesserung dieser Scores weniger Post-Editing-Aufwand für Übersetzer.

COMET misst die Übersetzungsqualität im allgemeinen Sinne. COMET wird nach der Anpassung nicht unbedingt steigen (das angepasste System kann Übersetzungen ähnlicher Qualität ausgeben, der Unterschied besteht darin, ob die Übersetzungen dem Stil, dem Tonfall, der Terminologie usw. des Kunden entsprechen). Eine signifikante Abnahme von COMET kann jedoch auf ein Problem mit dem angepassten System hinweisen.

Verfügbare Metriken

Phrase Custom KI integriert mehrere etablierte automatisierte Metriken zur Bewertung der Qualität maschineller Übersetzungen: BLEU, TER, chrf3 und COMET. Jede dieser Metriken bietet einen einzigartigen Ansatz zur Bewertung der Übersetzungsqualität und berücksichtigt verschiedene Aspekte der Übersetzung.

COMET (Cross-lingual Optimized Metric for Evaluation of Translation)

  • Überblick

    COMET ist eine neuere Kennzahl, die maschinelles Lernen verwendet, um Übersetzungen zu bewerten. Im Gegensatz zu traditionellen Kennzahlen verlässt sie sich nicht ausschließlich auf oberflächliche Textvergleiche.

  • Funktionsweise

    COMET verwendet ein neuronales Netzwerkmodell, das auf großen Datensätzen menschlicher Bewertungen trainiert wurde. Es bewertet Übersetzungen, indem es verschiedene Aspekte der Übersetzungsqualität berücksichtigt, einschließlich Flüssigkeit, Angemessenheit und die Bewahrung der Bedeutung.

  • Anwendungsfälle

    COMET ist effektiv in Szenarien, in denen ein tieferes Verständnis der Übersetzungsqualität erforderlich ist. Es ist besonders nützlich zur Bewertung von Übersetzungen, bei denen kontextuelle und semantische Genauigkeit wichtiger sind als wörtliche Entsprechungen.

BLEU (Bilingual Evaluation Understudy)

  • Überblick

    BLEU, eine der frühesten und am weitesten verbreiteten Kennzahlen, bewertet die Qualität von maschinell übersetztem Text, indem sie ihn mit einer oder mehreren hochwertigen Referenzübersetzungen vergleicht. BLEU misst die Übereinstimmung von Phrasen zwischen dem maschinell erzeugten Text und den Referenztexten und konzentriert sich auf die Präzision der Wortübereinstimmungen.

  • Funktionsweise

    BLEU berechnet die n-Gramm-Präzision für verschiedene n-Gramm-Längen (typischerweise 1 bis 4 Wörter) und kombiniert diese Werte dann mit einem geometrischen Mittel. Es beinhaltet auch eine Kürzungsstrafe, um das Problem übermäßig kurzer Übersetzungen zu adressieren.

  • Anwendungsfälle

    BLEU ist besonders effektiv zur Bewertung von Übersetzungen, bei denen die genaue Übereinstimmung von Phrasen und Wortreihenfolge wichtig ist. Allerdings kann die Abhängigkeit von genauen Übereinstimmungen eine Einschränkung bei der Erfassung der Qualität flüssiger oder idiomatischer Übersetzungen sein.

TER (Translation Edit Rate)

  • Überblick

    TER ist eine Kennzahl, die die Anzahl der Änderungen misst, die erforderlich sind, um einen maschinell übersetzten Text in eine Referenzübersetzung zu ändern. Sie basiert auf dem Konzept der Editierdistanz und umfasst Operationen wie Einfügungen, Löschungen und Ersetzungen. Im Gegensatz zu anderen Kennzahlen in dieser Liste bedeutet ein niedrigerer TER-Wert eine bessere Übersetzung.

  • Funktionsweise

    TER berechnet die minimale Anzahl von Änderungen, die erforderlich sind, um die maschinelle Übersetzung in eine der Referenzübersetzungen zu transformieren. Die Kennzahl wird dann durch die Gesamtanzahl der Wörter in der Referenzübersetzung normalisiert.

  • Anwendungsfälle

    TER ist nützlich zur Bewertung von Übersetzungen, bei denen der Fokus auf der Menge an Post-Editing-Arbeit liegt, die erforderlich ist. Es ist besonders relevant in Szenarien, in denen Übersetzungen von Menschen nachbearbeitet werden.

chrf3 (Character n-gram F-Score)

  • Überblick

    chrf3, oder Character n-gram F-Score, ist eine Kennzahl, die Übersetzungen basierend auf Zeichen-n-Grammen bewertet. Es berücksichtigt sowohl Präzision als auch Rückruf und bietet ein Gleichgewicht zwischen beiden.

  • Funktionsweise

    chrf3 berechnet den F-Score, ein harmonisches Mittel von Präzision und Rückruf, basierend auf der Überlappung von Zeichen-n-Grammen zwischen der maschinellen Übersetzung und dem Referenztext.

  • Anwendungsfälle

    chrf3 ist vorteilhaft für Sprachen, bei denen die Wortsegmentierung herausfordernd ist oder für morphologisch reiche Sprachen. Es ist auch weniger empfindlich gegenüber der Wortreihenfolge als BLEU, was es flexibler macht bei der Bewertung von Übersetzungen mit unterschiedlichen, aber akzeptablen Formulierungen.

Kennzahlbereiche

Die absoluten Werte der Kennzahlen variieren erheblich je nach Sprachpaar, Fachbereich und anderen Faktoren. Es ist daher schwierig, allgemeine Richtlinien zur Interpretation von Kennzahlwerten aufzustellen, und die Benutzer sollten hauptsächlich basierend auf den Unterschieden zwischen dem generischen und dem angepassten System entscheiden (bewertet auf einem identischen Datensatz).

Diese Tabelle kann als nützlicher Ausgangspunkt zur Interpretation der Werte der einzelnen Kennzahlen betrachtet werden:

  • Werte unterhalb der Schwelle für qualitativ minderwertige maschinelle Übersetzungen können auf ernsthafte Probleme hinweisen, und solche Systeme sollten typischerweise nicht ohne weitere Analyse eingesetzt werden.

  • Werte, die die Schwelle für qualitativ hochwertige maschinelle Übersetzungen überschreiten, deuten typischerweise auf ein sehr gut funktionierendes System hin, das fließende und angemessene Übersetzungen produziert.

Kennzahl

Bereich

Schwelle für qualitativ minderwertige maschinelle Übersetzungen

Schwelle für qualitativ hochwertige maschinelle Übersetzungen

KOMET

Typischerweise 0 bis 1

< 0,3

> 0,8

BLEU

0 bis 100

< 15

> 50

TER

0 bis 100, je niedriger, desto besser

> 70

< 30

chrf3

0 bis 100

< 20

> 60

War dieser Beitrag hilfreich?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.