Custom AI

Filtry čištění

Obsah je strojově přeložen z angličtiny s použitím Phrase Language AI.

Při trénování MT je nejdůležitější nejen objem, ale i kvalita dat. Údaje o čištění jsou dlouhodobým všudypřítomným problémem a ruční čištění je pracný proces. Čistá data vedou k rychlejšímu trénování a kvalitnějším modelům.

Phrase Custom AI umožňuje adaptaci překladových pamětí do datových sad s Nápovědou filtrů čištění poháněných umělou inteligencí a založených na pravidlech. K dispozici jsou výchozí nastavení, která mohou být vhodná pro nové uživatele.

Dostupná sada filtrů zahrnuje filtry založené na pravidlech i filtry založené na ML:

  • Podle pravidel

    Filtry, které pracují s jasně definovanými pravidly, která jsou pro člověka snadno srozumitelná. Tato kategorie filtrovat zahrnuje datum, minimální počet znaků, délku páru vět, poměr délky, nepřekládané texty, duplicity, téměř duplicity.

  • Pomocí ML

    Filtry, které analyzují obsah samotného textu, aby se mohly rozhodnout, namísto prostého dodržování pevné sady pravidel. Tato kategorie filtrovat zahrnuje neshodu zdroje a cíle a identifikaci jazyka.

Všechny filtry hodnotí vyčištěnou verzi segmentů. Například, více mezer je zmenšeno na jednu a tagy Phrase jsou odstraněny.

Datové období

Datum konce i začátku je zahrnuto v uživatelském účtu s datem poslední změny segmentu.

Neshoda zdroje a cíle

Tento filtruje umožňuje uživatelům určit shodu segmentů z hlediska významu a sémantické podobnosti. Zarovnání dvojice vět se měří pomocí metriky LASER.

nástroj umělá inteligence inteligence se používá ke kontrole toho, zda zdroj a cíl text znamenají to samé, nebo kolik toho samého. Doporučené nastavení zahodí 10 % nejhorších segmentů při zachování 90 % nejlepších segmentů.

Rozšířené nastavení umožňuje měnit alignment nebo jej lze filtrovat podle hrubého skóre podobnosti pomocí čísla mezi 0 a 1 (1 znamená Dokončit alignment). Doporučujeme opatrnost, pokud používáte hrubé skóre podobnosti, protože každý jazykový pár má jiné rozložení skóre a to, co je považováno za dobré skóre pro jeden jazykový pár, může být neuspokojivé skóre pro jiný.

Segmenty pod 0,5 nejsou obvykle příliš dobré a segmenty blízké nebo nad 1 jsou segmenty, které jsou stejné v obou jazycích.

Příklady:

{"zdroj": "Super.", "cíl": "Super.", "podobnost": 1.05}

{"zdroj": "Hello", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}

Minimální počet znaků a písmen

Počet znaků zahrnuje všechny znaky. Patří sem všechna písmena, bílé mezery, interpunkce a symboly. Pro účely trénování může být užitečné zahodit segmenty, které neobsahují žádná písmena.

Počet písmen počítá pouze písmena, například v anglickém písmu, ale i složitější znaky s diakritikou nebo čínské znaky. Jeden čínský znak se počítá jako jedno písmeno, i když představuje více než jeden znak. Pro jazyky založené na znacích je výchozí hodnota 1, ale pro jazyky založené na slovech jsou výchozí hodnoty 4 (znaky) a 3 (písmena). Minimální hodnota je 1 a maximální hodnota je 500.

Pokud máte v datech hodně krátkých segmentů (např. akronymů), udržujte hodnoty filtrovat nízko.

Příklad:

Řetězec "Ahoj, světe! 1 2 3" má 19 znaků a 10 písmen.

Délka dvojice vět

Tento filtrovat odebere všechny segmenty, které jsou delší než limit nastavený uživateli. Tento filtruje proto, že většina systémů strojového překladu nebude trénovat segmenty, které jsou delší než jejich vnitřní limit. 

Například interní limit NextMT je 200 tokenů, což odpovídá přibližně 100–1000 slovům. Chcete-li trénovat vlastní nástroj na kratších větách, nastavte tuto hodnotu níže než výchozí.

Celkový počet znaků zahrnuje všechna písmena, bílé mezery a interpunkci ze zdrojové i cílové věty. Vezměte v úvahu typ jazyka (např. čínština a angličtina); pokud zdrojový jazyk není podobný jazyku CJK a cílový jazyk je CJK (nebo naopak), bude se tento filtrovat ignorovat.

Poměr délky

Tento filtruje segmenty, u kterých je délka při porovnání segmentu zdroje a segmentu cíle výrazně vyšší. Některé překlady při překladu ze zdroj do cíl jazyk zvyšují nebo snižují délku. Příliš dlouhé nebo příliš krátké překlady mohou ukazovat na tréninková data nízké kvality.

Pokud zdrojový jazyk neodpovídá CJK a cílový jazyk ano (nebo je tomu naopak), bude se tento filtrovat.CJK

Některé jazyky jsou slovesnější než jiné, takže 200 % je dobré výchozí nastavení. Pokud je cíl jazyk podobný zdroj jazyk nebo je třeba odfiltrovat více dat, může být hodnota nižší.

Příklady:

Jeden jazyk je CJK - poměr je 1. Nebude zahozena:

{"zdroj": "Toto je věta.", "cíl": "这是一个句子。", "poměr": 1}

Němčina má srovnatelnou délku jako anglický zdroj a nebude zrušena:

{"zdroj": "Toto je věta.", "cíl": "Dies ist ein Satz.", "ratio": 1.1}

Německý překlad je mnohem delší než anglický zdroj a bude zrušen:

{"zdroj": "Toto je věta.", "cíl": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}

Nepřekládaný text

Nepřekládané texty jsou segmenty, kde je zdroj a cíl stejný. Vyloučit všechny nepřekládané texty dvojice vět, kde cílový text zůstává stejný jako zdrojový text.

Duplikáty

Vytváří se skupiny segmentů se stejnou zdrojovou větou. Z každé skupiny je zachován pouze nejlepší segment, takže pokud je zdrojová věta segmentu jedinečná, zůstane automaticky zachována. V opačném případě bude segment s nejvyšším skóre podobnosti zachován.

Téměř duplicity

Při testování téměř duplicit je normalizována (mírně čistší verze) zdrojové věty; všechny nepísmenné znaky (některé příklady: „,?)!-) jsou nahrazeny Space a všechna písmena jsou označena malými písmeny.

Pomocí normalizované zdrojové věty se vytvoří skupiny segmentů se stejnou normalizovanou zdrojovou větou. Z každé skupiny je zachován pouze nejlepší segment, takže normalizovaná věta zdroje segmentu je jedinečná a je automaticky zachována. V opačném případě bude segment s nejvyšším skóre podobnosti zachován.

Identifikace jazyka

Nástroj umělé inteligence se používá k identifikaci zdroje a cíle jazyka na základě vět. Segment je odstraněn, pouze pokud nástroj rozpozná jazyk (zdroj/cíl) (například kratší věty často nestačí k tomu, aby nástroj rozpoznal jazyk) a jazyk je jiný, než se očekávalo.

QPS

Filtrovat QPS umožňuje odebrat dvojice vět s nejnižší kvalitou z datové sady s cílem zajistit, aby byly výsledné modely umělé inteligence trénovány na základě dostupných údajů nejvyšší kvality. Obecně platí, že čím vyšší je kvalita tréninkových dat, tím lepší je výkon vlastního modelu.

Filtrovat QPS lze dvěma způsoby:

  1. Odebírání zadaného procenta dvojic vět s nejnižším skóre QPS. Doporučení je 10 %.

  2. Výběr limitu skóre. Použijte rozšířená nastavení, abyste vyloučili dvojice vět klesající pod nastavitelný limit QPS. Doporučený výchozí bod je 50.

Tyto dvě možnosti zajišťují automatizovanou správu datových sad v souladu s cíli kvality uživatelů.

Byl pro vás tento článek užitečný?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.