Čištění filtrů

Obsah je strojově přeložen z angličtiny s použitím Phrase Language AI.

Nejdůležitějšími aspekty trénování MT motorů nejsou pouze objem, ale také kvalita dat. Čištění dat je rozšířený problém a manuální čištění je pracné. Čistá data vedou k rychlejšímu trénování a kvalitnějším modelům.

Phrase Vlastní umělá inteligence přizpůsobuje překladové paměti do datových sad s pomocí filtrů pro čištění založených na umělé inteligenci a pravidlech. Výchozí nastavení jsou poskytována a měla by být vhodná pro nové uživatele.

Sada dostupných filtrů zahrnuje jak filtry založené na pravidlech, tak filtry založené na strojovém učení:

Založené na pravidlech

Filtry, které fungují s jasně definovanými pravidly, která jsou snadno pochopitelná lidmi. Tato kategorie filtrů zahrnuje Rozsah dat, Minimální počet znaků, Délka páru vět, Poměr délky, Nepřeložitelné, Duplicitní, Blízké duplicity.
Založené na strojovém učení

Filtry, které analyzují obsah textu samotného, aby se rozhodly, místo aby jednoduše následovaly pevně stanovenou sadu pravidel. Tato kategorie filtrů zahrnuje Nesouhlasící zdroj a cíl a Identifikace jazyka.

Všechny filtry hodnotí na vyčištěných verzích segmentů; mimo jiné jsou více mezer zredukovány na jednu a Phrase značky jsou odstraněny.

Rozsah dat

Vylučuje segmenty mimo stanovené datum. Koncové a počáteční datum jsou zahrnuty spolu s datem poslední úpravy segmentu.

Nesouhlasící zdroj a cíl

Tento filtr určuje, jak dobře segmenty odpovídají z hlediska významu a sémantické podobnosti, a odstraňuje nejhůře hodnocené. Zarovnání páru vět je měřeno pomocí metriky LASER.

AI motor se používá k ověření, že zdrojový a cílový text znamenají to samé nebo jak moc se shodují. Doporučené nastavení zahazuje 10 % nejhorších segmentů a zachovává 90 % nejlepších segmentů.

Pokročilá nastavení umožňují změnu zarovnání nebo mohou být filtrem založeným na surovém skóre podobnosti pomocí čísla mezi 0 a 1 (1 znamená úplné zarovnání). Je třeba být opatrný při používání surového skóre podobnosti, protože každý jazykový pár má jinou distribuci skóre a to, co je považováno za dobré skóre pro jeden jazykový pár, může být pro jiný jazykový pár nespokojivé.

Obvykle segmenty pod 0,5 nejsou příliš dobré a segmenty blízko nebo nad 1 jsou segmenty, které jsou stejné v obou jazycích.

Příklady:

{"source": "Super.", "target": "Super.", "similarity": 1.05}

{"source": "Hello", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}

Minimální počet znaků a písmen

Počet znaků zahrnuje všechny znaky. To zahrnuje všechna písmena, bílé mezery a interpunkci a symboly. Pro tréninkové účely může být užitečné zahodit segmenty, které neobsahují žádná písmena.

Počet písmen počítá pouze písmena, jako v anglické abecedě, ale také složitější znaky s diakritikou nebo čínské znaky. Jeden čínský znak se počítá jako jedno písmeno, i když představuje více než jeden znak. Pro jazyky založené na znacích jsou výchozí hodnoty 1, ale pro jazyky založené na slovech jsou výchozí hodnoty 4 (znaky) a 3 (písmena). Minimální hodnota je 1 a maximální hodnota je 500.

Pokud uchováváte hodně krátkých segmentů v datech (například zkratky), udržujte hodnoty filtru nízké.

Příklad:

Řetězec "Ahoj, světe! 1 2 3" má 19 znaků a 10 písmen.

Délka páru vět

Tento filtr odstraňuje všechny segmenty, které jsou delší než prahová hodnota nastavená uživateli. Důvodem tohoto filtru je, že většina systémů NMT se ve skutečnosti nebude trénovat na segmentech, které jsou delší než jejich interní prahová hodnota.

Například interní prahová hodnota NextMT je 200 tokenů, což odpovídá přibližně 100 - 1 000 slovům. Pro trénink vlastního nástroje na kratších větách nastavte tuto hodnotu nižší než výchozí.

Celkový počet znaků zahrnuje všechny znaky - písmena, mezery a interpunkci - z obou vět zdroje a cíle. Zohledněte typ jazyka (například čínština a angličtina); pokud zdrojový jazyk není podobný CJK a cílový jazyk je CJK (nebo naopak), tento filtr bude ignorován.

Poměr délky

Tento filtr identifikuje segmenty, kde je délka výrazně vyšší při porovnání segmentu zdroje a segmentu cíle. Některé překlady se při překladu ze zdrojového do cílového jazyka zvyšují nebo snižují na délce. Příliš dlouhé nebo příliš krátké překlady mohou naznačovat nekvalitní tréninková data.

Pokud zdrojový jazyk není podobný CJK a cílový jazyk je (nebo naopak), tento filtr bude ignorován.CJK

Některé jazyky jsou obsažnější než jiné, takže 200 % je dobrý výchozí bod. Pokud je cílový jazyk podobný zdrojovému jazyku, nebo pokud je potřeba filtrovat více dat, může být hodnota nižší.

Příklady:

Jeden jazyk je CJK - poměr je 1. Nebude vyřazen:

{"source": "Toto je věta.", "target": "这是一个句子。", "ratio": 1}

Německý překlad má srovnatelnou délku jako anglický zdroj a nebude vyřazen:

{"source": "Toto je věta.", "target": "Dies ist ein Satz.", "ratio": 1.1}

Německý překlad je mnohem delší než anglický zdroj a bude vyřazen:

{"source": "Toto je věta.", "target": "Toto je věta s dalšími zbytečnými výplněmi.", "ratio": 3.1}

Nepřekládaný text

Nepřekládaný text jsou segmenty, kde jsou zdrojové a cílové segmenty stejné. Vylučuje všechny nepřekládané páry vět, kde se cílový text nezměnil od zdrojového textu.

Duplicitní

Skupiny segmentů jsou vytvářeny, které mají stejnou zdrojovou větu. Z každé skupiny je uchován pouze nejlepší segment, takže pokud je zdrojová věta segmentu unikátní, je automaticky uchována. Jinak je uchován segment s nejvyšším skóre podobnosti.

Téměř duplicity

Při testování na téměř duplicity je (lehce čistší verze) zdrojové věty normalizována; všechny znaky, které nejsou písmeny (některé příklady: “,?)!-) jsou nahrazeny mezerou a všechna písmena jsou převedena na malá písmena.

Pomocí normalizované zdrojové věty jsou vytvářeny skupiny segmentů, které mají stejnou normalizovanou zdrojovou větu. Z každé skupiny je uchován pouze nejlepší segment, takže normalizovaná zdrojová věta segmentu je unikátní a je automaticky uchována. Jinak je uchován segment s nejvyšším skóre podobnosti.

Identifikace jazyka

K identifikaci zdrojového a cílového jazyka na základě vět se používá nástroj umělé inteligence. Segment je odstraněn pouze tehdy, pokud nástroj rozpozná (zdrojový/cílový) jazyk (jako příklad, kratší věty často nestačí pro nástroj k určení jazyka) a jazyk je jiný, než se očekávalo.

QPS

Filtr QPS odstraňuje páry vět s nejnižší kvalitou v datovém souboru, aby zajistil, že výsledné modely umělé inteligence jsou trénovány na datech nejvyšší kvality, která jsou k dispozici. Obecně platí, že čím vyšší je kvalita tréninkových dat, tím lépe přizpůsobený model funguje.

Filtr QPS lze nakonfigurovat dvěma způsoby:

Odstranění specifikovaného procenta párů vět s nejnižšími skóre QPS. Doporučení je 10%.
Výběr prahu skóre. Použijte pokročilá nastavení k eliminaci párů vět, které klesají pod nastavitelné QPS prahy. Doporučený výchozí bod je 50.

Tyto dvě možnosti poskytují automatizovanou kuraci datasetu, aby vyhovovaly kvalitativním cílům uživatelů.