Používání metrik MT

Obsah je strojově přeložen z angličtiny s použitím Phrase Language AI.

Automatizované hodnotící metriky hrají klíčovou roli při hodnocení kvality překladů produkovaných systémy strojového překladu. Na rozdíl od lidských hodnocení, která mohou být subjektivní a časově náročná, automatizované metriky poskytují rychlý, objektivní a opakovatelný způsob, jak posoudit výkon systémů MT.

Phrase Custom AI zahrnuje několik dobře zavedených automatizovaných metrik pro hodnocení kvality strojového překladu: BLEU, TER, chrf3 a COMET.

Doporučuje se nasadit přizpůsobené systémy do produkčního prostředí, pokud jsou splněny obě následující podmínky:

BLEU zlepšení alespoň o 5 bodů (absolutně, např. 40 vs 35), nebo chrf zlepšení alespoň o 4 body.
Žádné významné snížení skóre COMET.

Ve většině případů jsou zlepšení této velikosti snadno postřehnutelná pro lidské překladatele a vedou ke zlepšení časů post-editace.

Doporučený přístup

Obecně se absolutní hodnoty metrik liší v závislosti na jazykovém páru, doméně a dalších faktorech. Aby bylo možné posoudit, jak úspěšný byl proces přizpůsobení, prozkoumejte rozdíl mezi skóre generického a přizpůsobeného systému.

BLEU, chrf a TER měří překryv řetězců mezi výstupy MT a referenčními překlady. Podle definice znamená významné zlepšení těchto skóre menší úsilí při post-editaci pro překladatele.

COMET měří kvalitu překladu v obecném smyslu. COMET se po přizpůsobení nutně nezvýší (přizpůsobený systém může produkovat překlady podobné kvality, rozdíl je v tom, zda překlady odpovídají stylu, tónu, terminologii zákazníka atd.). Nicméně, významné snížení COMET může signalizovat problém s přizpůsobeným systémem.

Dostupné metriky

Phrase Custom AI zahrnuje několik dobře zavedených automatizovaných metrik pro hodnocení kvality strojového překladu: BLEU, TER, chrf3 a COMET. Každá z těchto metrik nabízí jedinečný přístup k hodnocení kvality překladu, zaměřuje se na různé aspekty překladu.

COMET (Křížově jazyková optimalizovaná metrika pro hodnocení překladu)

Přehled

COMET je novější metrika, která využívá modely strojového učení k hodnocení překladů. Na rozdíl od tradičních metrik se nezaměřuje pouze na povrchové srovnání textu.
Pracovní mechanismus

COMET používá model neuronové sítě trénovaný na velkých datech lidských hodnocení. Hodnotí překlady zohledněním různých aspektů kvality překladu, včetně plynulosti, adekvátnosti a zachování významu.
Příklady použití

COMET je účinný v situacích, kdy je vyžadováno hlubší porozumění kvalitě překladu. Je obzvlášť užitečný pro hodnocení překladů, kde jsou kontextová a sémantická přesnost důležitější než doslovná shoda slov.

BLEU (Bilingvní hodnotící nástroj)

Přehled

BLEU, jedna z nejstarších a nejpoužívanějších metrik, hodnotí kvalitu strojově přeloženého textu porovnáním s jedním nebo více kvalitními referenčními překlady. BLEU měří shodu frází mezi strojově generovaným textem a referenčními texty, zaměřuje se na přesnost shody slov.
Pracovní mechanismus

BLEU vypočítává přesnost n-gramů pro různé délky n-gramů (typicky 1 až 4 slova) a poté tyto skóre kombinuje pomocí geometrického průměru. Také zahrnuje penalizaci za stručnost, aby se vyřešil problém příliš krátkých překladů.
Příklady použití

BLEU je obzvlášť účinný pro hodnocení překladů, kde je důležitá přesná shoda frází a pořadí slov. Nicméně, jeho závislost na přesných shodách může být omezením při zachycování kvality plynulejších nebo idiomatických překladů.

TER (Míra úprav překladu)

Přehled

TER je metrika, která měří počet úprav potřebných k přeměně strojově přeloženého textu na referenční překlad. Je založena na konceptu edit distance a zahrnuje operace jako vkládání, mazání a substituce. Na rozdíl od ostatních metrik na tomto seznamu nižší skóre TER znamená lepší překlad.
Pracovní mechanismus

TER vypočítává minimální počet úprav potřebných k transformaci strojového překladu na jednu z referenčních překladů. Skóre je poté normalizováno podle celkového počtu slov v referenčním překladu.
Příklady použití

TER je užitečný pro hodnocení překladů, kde je důraz na množství post-editace potřebné k práci. Je zvláště relevantní ve scénářích, kde budou překlady post-editovány lidmi.

chrf3 (F-skóre znakových n-gramů)

Přehled

chrf3, nebo F-skóre znakových n-gramů, je metrika, která hodnotí překlady na základě n-gramů na úrovni znaků. Zohledňuje jak přesnost, tak i zpětné vyvolání, čímž poskytuje rovnováhu mezi oběma.
Pracovní mechanismus

chrf3 vypočítává F-skóre, harmonický průměr přesnosti a zpětného vyvolání, na základě překryvu znakových n-gramů mezi strojovým překladem a referenčním textem.
Příklady použití

chrf3 je výhodný pro jazyky, kde je segmentace slov náročná, nebo pro morfologicky bohaté jazyky. Je také méně citlivý na pořadí slov než BLEU, což z něj činí flexibilnější nástroj pro hodnocení překladů s různými, ale přijatelnými frázemi.

Rozsahy skóre

Absolutní hodnoty metrik se výrazně liší v závislosti na jazykovém páru, doméně a dalších faktorech. Je proto obtížné stanovit obecné pokyny pro interpretaci hodnot skóre a uživatelé by měli primárně rozhodovat na základě rozdílů mezi generickým a přizpůsobeným systémem (hodnoceným na identickém datovém souboru).

Tato tabulka může být považována za užitečný výchozí bod pro interpretaci hodnot jednotlivých metrik:

Skóre pod prahem nízkokvalitního strojového překladu mohou naznačovat vážné problémy a takové systémy by obvykle neměly být nasazeny bez další analýzy.
Skóre, které překračují práh pro vysokokvalitní strojový překlad, obvykle naznačují velmi dobře fungující systém, který produkuje plynulé a adekvátní překlady.

Metrika	Rozsah	Prahová hodnota nízkokvalitního strojového překladu	Prahová hodnota vysokokvalitního strojového překladu
KOMETA	Obvykle 0 až 1	< 0,3	> 0,8
BLEU	0 až 100	< 15	> 50
TER	0 až 100, nižší je lepší	> 70	< 30
chrf3	0 až 100	< 20	> 60