Custom AI

Používání metrik MT

Obsah je strojově přeložen z angličtiny s použitím Phrase Language AI.

Automatizované hodnotící metriky hrají klíčovou roli při posuzování kvality překladů produkovaných systémy strojového překladu. Na rozdíl od lidských hodnocení, která mohou být subjektivní a časově náročná, automatizované metriky poskytují rychlý, objektivní a opakovatelný způsob, jak posoudit výkon systémů MT.

Phrase Custom AI zahrnuje několik dobře zavedených automatizovaných metrik pro hodnocení kvality strojového překladu: BLEU, TER, chrf3 a COMET.

Doporučuje se nasadit přizpůsobené systémy do produkčního prostředí, pokud jsou splněny obě následující podmínky:

  • BLEU zlepšení alespoň o 5 bodů (absolutně, např. 40 vs 35), nebo chrf zlepšení alespoň o 4 body.

  • Žádné významné snížení skóre COMET.

Ve většině případů jsou zlepšení této velikosti snadno postřehnutelná pro lidské překladatele a vedou ke zlepšení časů post-editace.

Doporučený přístup

Obecně se absolutní hodnoty metrik liší v závislosti na jazykovém páru, doméně a dalších faktorech. Aby bylo možné posoudit, jak úspěšný byl proces přizpůsobení, prozkoumejte rozdíl mezi skóre generického a přizpůsobeného systému.

BLEU, chrf a TER měří překryv řetězců mezi výstupy MT a referenčními překlady. Podle definice znamená významné zlepšení těchto skóre méně úsilí při post-editaci pro překladatele.

COMET měří kvalitu překladu v obecném smyslu. COMET se po přizpůsobení nemusí nutně zvýšit (přizpůsobený systém může produkovat překlady podobné kvality, rozdíl je v tom, zda překlady odpovídají stylu, tónu, terminologii zákazníka atd.). Nicméně, významné snížení COMET může signalizovat problém s přizpůsobeným systémem.

Dostupné metriky

Phrase Custom AI zahrnuje několik dobře zavedených automatizovaných metrik pro hodnocení kvality strojového překladu: BLEU, TER, chrf3 a COMET. Každá z těchto metrik nabízí jedinečný přístup k hodnocení kvality překladu, zaměřuje se na různé aspekty překladu.

COMET (Křížově jazyková optimalizovaná metrika pro hodnocení překladu)

  • Přehled

    COMET je novější metrika, která využívá modely strojového učení k hodnocení překladů. Na rozdíl od tradičních metrik se nezaměřuje pouze na povrchové srovnání textu.

  • Pracovní mechanismus

    COMET používá model neuronové sítě trénovaný na velkých datech lidských hodnocení. Hodnotí překlady zohledněním různých aspektů kvality překladu, včetně plynulosti, adekvátnosti a zachování významu.

  • Příklady použití

    COMET je účinný v situacích, kdy je vyžadováno hlubší porozumění kvalitě překladu. Je obzvlášť užitečný pro hodnocení překladů, kde jsou kontextová a sémantická přesnost důležitější než doslovná shoda slov.

BLEU (Bilingvní hodnocení náhradníka)

  • Přehled

    BLEU, jedna z nejstarších a nejvíce používaných metrik, hodnotí kvalitu strojově přeloženého textu porovnáním s jedním nebo více vysoce kvalitními referenčními překlady. BLEU měří shodu frází mezi strojově generovaným textem a referenčními texty, zaměřuje se na přesnost shody slov.

  • Pracovní mechanismus

    BLEU vypočítává přesnost n-gramů pro různé délky n-gramů (typicky 1 až 4 slova) a poté tyto skóre kombinuje pomocí geometrického průměru. Také zahrnuje penalizaci za stručnost, aby se vyřešil problém příliš krátkých překladů.

  • Příklady použití

    BLEU je obzvlášť účinný pro hodnocení překladů, kde je důležitá přesná shoda frází a pořadí slov. Nicméně, jeho závislost na přesných shodách může být omezením při zachycování kvality plynulejších nebo idiomatických překladů.

TER (Míra úprav překladu)

  • Přehled

    TER je metrika, která měří počet úprav potřebných k přeměně strojově přeloženého textu na referenční překlad. Je založena na konceptu edit distance a zahrnuje operace jako vkládání, mazání a substituce. Na rozdíl od ostatních metrik na tomto seznamu nižší skóre TER znamená lepší překlad.

  • Pracovní mechanismus

    TER vypočítává minimální počet úprav potřebných k transformaci strojového překladu na jednu z referenčních překladů. Skóre je poté normalizováno podle celkového počtu slov v referenčním překladu.

  • Příklady použití

    TER je užitečný pro hodnocení překladů, kde je důraz na množství post-editace potřebné k práci. Je zvláště relevantní ve scénářích, kde budou překlady post-editovány lidmi.

chrf3 (F-skóre znaku n-gramu)

  • Přehled

    chrf3, nebo F-skóre znaku n-gramu, je metrika, která hodnotí překlady na základě n-gramů na úrovni znaků. Zohledňuje jak přesnost, tak i zpětné vyvolání, čímž poskytuje rovnováhu mezi oběma.

  • Pracovní mechanismus

    chrf3 vypočítává F-skóre, harmonický průměr přesnosti a zpětného vyvolání, na základě překryvu n-gramů znaků mezi strojovým překladem a referenčním textem.

  • Příklady použití

    chrf3 je výhodný pro jazyky, kde je segmentace slov náročná, nebo pro morfologicky bohaté jazyky. Je také méně citlivý na pořadí slov než BLEU, což z něj činí flexibilnější nástroj pro hodnocení překladů s různými, ale přijatelnými frázemi.

Rozsahy skóre

Absolutní hodnoty metrik se výrazně liší v závislosti na jazykovém páru, doméně a dalších faktorech. Je proto obtížné stanovit obecné pokyny pro interpretaci hodnot skóre a uživatelé by měli primárně rozhodovat na základě rozdílů mezi generickým a přizpůsobeným systémem (hodnoceným na identickém datovém souboru).

Tato tabulka může být považována za užitečný výchozí bod pro interpretaci hodnot jednotlivých metrik:

  • Skóre pod prahem nízkokvalitního strojového překladu mohou naznačovat vážné problémy a takové systémy by obvykle neměly být nasazeny bez další analýzy.

  • Skóre, které překračují práh vysokokvalitního strojového překladu, obvykle naznačují velmi dobře fungující systém, který produkuje plynulé a adekvátní překlady.

Metrika

Rozsah

Prahová hodnota nízkokvalitního strojového překladu

Prahová hodnota vysokokvalitního strojového překladu

KOMETA

Obvykle 0 až 1

< 0,3

> 0,8

BLEU

0 až 100

< 15

> 50

TER

0 až 100, nižší je lepší

> 70

< 30

chrf3

0 až 100

< 20

> 60

Byl pro vás tento článek užitečný?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.