Automatizované hodnotící metriky hrají klíčovou roli při posuzování kvality překladů produkovaných systémy strojového překladu. Na rozdíl od lidských hodnocení, která mohou být subjektivní a časově náročná, automatizované metriky poskytují rychlý, objektivní a opakovatelný způsob, jak posoudit výkon systémů MT.
Phrase Custom AI zahrnuje několik dobře zavedených automatizovaných metrik pro hodnocení kvality strojového překladu: BLEU, TER, chrf3 a COMET.
Doporučuje se nasadit přizpůsobené systémy do produkčního prostředí, pokud jsou splněny obě následující podmínky:
-
BLEU zlepšení alespoň o 5 bodů (absolutně, např. 40 vs 35), nebo chrf zlepšení alespoň o 4 body.
-
Žádné významné snížení skóre COMET.
Ve většině případů jsou zlepšení této velikosti snadno postřehnutelná pro lidské překladatele a vedou ke zlepšení časů post-editace.
Doporučený přístup
Obecně se absolutní hodnoty metrik liší v závislosti na jazykovém páru, doméně a dalších faktorech. Aby bylo možné posoudit, jak úspěšný byl proces přizpůsobení, prozkoumejte rozdíl mezi skóre generického a přizpůsobeného systému.
BLEU, chrf a TER měří překryv řetězců mezi výstupy MT a referenčními překlady. Podle definice znamená významné zlepšení těchto skóre méně úsilí při post-editaci pro překladatele.
COMET měří kvalitu překladu v obecném smyslu. COMET se po přizpůsobení nemusí nutně zvýšit (přizpůsobený systém může produkovat překlady podobné kvality, rozdíl je v tom, zda překlady odpovídají stylu, tónu, terminologii zákazníka atd.). Nicméně, významné snížení COMET může signalizovat problém s přizpůsobeným systémem.
Dostupné metriky
Phrase Custom AI zahrnuje několik dobře zavedených automatizovaných metrik pro hodnocení kvality strojového překladu: BLEU, TER, chrf3 a COMET. Každá z těchto metrik nabízí jedinečný přístup k hodnocení kvality překladu, zaměřuje se na různé aspekty překladu.
COMET (Křížově jazyková optimalizovaná metrika pro hodnocení překladu)
-
Přehled
COMET je novější metrika, která využívá modely strojového učení k hodnocení překladů. Na rozdíl od tradičních metrik se nezaměřuje pouze na povrchové srovnání textu.
-
Pracovní mechanismus
COMET používá model neuronové sítě trénovaný na velkých datech lidských hodnocení. Hodnotí překlady zohledněním různých aspektů kvality překladu, včetně plynulosti, adekvátnosti a zachování významu.
-
Příklady použití
COMET je účinný v situacích, kdy je vyžadováno hlubší porozumění kvalitě překladu. Je obzvlášť užitečný pro hodnocení překladů, kde jsou kontextová a sémantická přesnost důležitější než doslovná shoda slov.
BLEU (Bilingvní hodnocení náhradníka)
-
Přehled
BLEU, jedna z nejstarších a nejvíce používaných metrik, hodnotí kvalitu strojově přeloženého textu porovnáním s jedním nebo více vysoce kvalitními referenčními překlady. BLEU měří shodu frází mezi strojově generovaným textem a referenčními texty, zaměřuje se na přesnost shody slov.
-
Pracovní mechanismus
BLEU vypočítává přesnost n-gramů pro různé délky n-gramů (typicky 1 až 4 slova) a poté tyto skóre kombinuje pomocí geometrického průměru. Také zahrnuje penalizaci za stručnost, aby se vyřešil problém příliš krátkých překladů.
-
Příklady použití
BLEU je obzvlášť účinný pro hodnocení překladů, kde je důležitá přesná shoda frází a pořadí slov. Nicméně, jeho závislost na přesných shodách může být omezením při zachycování kvality plynulejších nebo idiomatických překladů.
TER (Míra úprav překladu)
-
Přehled
TER je metrika, která měří počet úprav potřebných k přeměně strojově přeloženého textu na referenční překlad. Je založena na konceptu edit distance a zahrnuje operace jako vkládání, mazání a substituce. Na rozdíl od ostatních metrik na tomto seznamu nižší skóre TER znamená lepší překlad.
-
Pracovní mechanismus
TER vypočítává minimální počet úprav potřebných k transformaci strojového překladu na jednu z referenčních překladů. Skóre je poté normalizováno podle celkového počtu slov v referenčním překladu.
-
Příklady použití
TER je užitečný pro hodnocení překladů, kde je důraz na množství post-editace potřebné k práci. Je zvláště relevantní ve scénářích, kde budou překlady post-editovány lidmi.
chrf3 (F-skóre znaku n-gramu)
-
Přehled
chrf3, nebo F-skóre znaku n-gramu, je metrika, která hodnotí překlady na základě n-gramů na úrovni znaků. Zohledňuje jak přesnost, tak i zpětné vyvolání, čímž poskytuje rovnováhu mezi oběma.
-
Pracovní mechanismus
chrf3 vypočítává F-skóre, harmonický průměr přesnosti a zpětného vyvolání, na základě překryvu n-gramů znaků mezi strojovým překladem a referenčním textem.
-
Příklady použití
chrf3 je výhodný pro jazyky, kde je segmentace slov náročná, nebo pro morfologicky bohaté jazyky. Je také méně citlivý na pořadí slov než BLEU, což z něj činí flexibilnější nástroj pro hodnocení překladů s různými, ale přijatelnými frázemi.
Rozsahy skóre
Absolutní hodnoty metrik se výrazně liší v závislosti na jazykovém páru, doméně a dalších faktorech. Je proto obtížné stanovit obecné pokyny pro interpretaci hodnot skóre a uživatelé by měli primárně rozhodovat na základě rozdílů mezi generickým a přizpůsobeným systémem (hodnoceným na identickém datovém souboru).
Tato tabulka může být považována za užitečný výchozí bod pro interpretaci hodnot jednotlivých metrik:
-
Skóre pod prahem nízkokvalitního strojového překladu mohou naznačovat vážné problémy a takové systémy by obvykle neměly být nasazeny bez další analýzy.
-
Skóre, které překračují práh vysokokvalitního strojového překladu, obvykle naznačují velmi dobře fungující systém, který produkuje plynulé a adekvátní překlady.
|
Metrika |
Rozsah |
Prahová hodnota nízkokvalitního strojového překladu |
Prahová hodnota vysokokvalitního strojového překladu |
|---|---|---|---|
|
KOMETA |
Obvykle 0 až 1 |
< 0,3 |
> 0,8 |
|
BLEU |
0 až 100 |
< 15 |
> 50 |
|
TER |
0 až 100, nižší je lepší |
> 70 |
< 30 |
|
chrf3 |
0 až 100 |
< 20 |
> 60 |