Čistění filtrů

Obsah je strojově přeložen z angličtiny s použitím Phrase Language AI.

Nejdůležitějšími aspekty trénování MT motorů nejsou jen objem, ale také kvalita dat. Čistění dat je rozšířený problém a manuální čištění je pracné. Čistá data vedou k rychlejšímu trénování a kvalitnějším modelům.

Phrase Vlastní umělá inteligence přizpůsobuje překladové paměti do datových sad s pomocí AI a pravidlových čisticích filtrů. Výchozí nastavení je poskytováno a mělo by být vhodné pro nové uživatele.

Sada dostupných filtrů zahrnuje jak pravidlové filtry, tak filtry založené na ML:

Pravidlové

Filtry, které fungují s jasně definovanými pravidly, která jsou snadno pochopitelná lidmi. Tato kategorie filtrů zahrnuje Rozsah dat, Minimální počet znaků, Délka páru vět, Poměr délky, Nepřeložitelné, Duplicitní, Blízké duplicity.
Filtry založené na ML

Filtry, které analyzují obsah textu samotného, aby se rozhodly, místo aby jednoduše následovaly pevně stanovenou sadu pravidel. Tato kategorie filtrů zahrnuje Nesouhlasící zdroj a cíl a Identifikace jazyka.

Všechny filtry hodnotí na vyčištěných verzích segmentů; mimo jiné jsou vícenásobné mezery redukovány na jednu a Phrase značky jsou odstraněny.

Rozsah dat

Vylučuje segmenty mimo stanovené datum. Koncové a počáteční datum jsou zahrnuty spolu s datem poslední úpravy segmentu.

Nesouhlasící zdroj a cíl

Tento filtr určuje, jak dobře segmenty odpovídají z hlediska významu a sémantické podobnosti, a odstraňuje nejhůře hodnocené. Zarovnání páru vět je měřeno pomocí metriky LASER.

AI motor se používá k ověření, že zdrojový a cílový text znamenají to samé nebo jak moc se shodují. Doporučené nastavení zahazuje 10 % nejhorších segmentů a zachovává 90 % nejlepších segmentů.

Pokročilá nastavení umožňují změnu zarovnání nebo mohou být filtrem na základě surového skóre podobnosti pomocí čísla mezi 0 a 1 (1 znamená úplné zarovnání). Je doporučeno být opatrný při používání surového skóre podobnosti, protože každý jazykový pár má jinou distribuci skóre a to, co je považováno za dobré skóre pro jeden jazykový pár, může být pro jiný jazykový pár nespokojivé.

Obvykle segmenty pod 0,5 nejsou příliš dobré a segmenty blízko nebo nad 1 jsou segmenty, které jsou stejné v obou jazycích.

Příklady:

{"source": "Super.", "target": "Super.", "similarity": 1.05}

{"source": "Ahoj", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}

Minimální počet znaků a písmen

Počet znaků zahrnuje všechny znaky. To zahrnuje všechna písmena, bílé prostory a interpunkci a symboly. Pro tréninkové účely může být užitečné zahodit segmenty, které neobsahují žádná písmena.

Počet písmen počítá pouze písmena, jako v anglické abecedě, ale také složitější znaky s diakritikou nebo čínské znaky. Jeden čínský znak se počítá jako jedno písmeno, i když představuje více než jedno písmeno. Pro jazyky založené na znacích jsou výchozí hodnoty 1, ale pro jazyky založené na slovech jsou výchozí hodnoty 4 (znaky) a 3 (písmena). Minimální hodnota je 1 a maximální hodnota je 500.

Pokud uchováváte mnoho krátkých segmentů v datech (například zkratky), udržujte hodnoty filtru nízké.

Příklad:

Řetězec "Ahoj, světe! 1 2 3" má 19 znaků a 10 písmen.

Délka páru vět

Tento filtr odstraňuje všechny segmenty, které jsou delší než prahová hodnota nastavená uživateli. Důvodem tohoto filtru je, že většina systémů NMT ve skutečnosti netrénuje na segmentech, které jsou delší než jejich interní prahová hodnota.

Například interní prahová hodnota NextMT je 200 tokenů, což odpovídá přibližně 100 - 1 000 slovům. Pro trénink vlastního nástroje na kratších větách nastavte tuto hodnotu nižší než výchozí.

Celkový počet znaků zahrnuje všechny znaky - písmena, mezery a interpunkci - z obou vět, zdroje a cíle. Zohledněte typ jazyka (například čínština a angličtina); pokud zdrojový jazyk není podobný CJK a cílový jazyk je CJK (nebo naopak), tento filtr bude ignorován.

Poměr délky

Tento filtr identifikuje segmenty, kde je délka výrazně vyšší při porovnání zdrojového segmentu a cílového segmentu. Některé překlady se při překladu ze zdrojového do cílového jazyka zvyšují nebo snižují na délce. Příliš dlouhé nebo příliš krátké překlady mohou naznačovat nízkou kvalitu tréninkových dat.

Pokud zdrojový jazyk není podobný CJK a cílový jazyk je (nebo naopak), tento filtr bude ignorován.CJK

Některé jazyky jsou obsažnější než jiné, takže 200 % je dobrý výchozí bod. Pokud je cílový jazyk podobný zdrojovému jazyku, nebo je potřeba filtrovat více dat, může být hodnota nižší.

Příklady:

Jeden jazyk je CJK - poměr je 1. Nebude vyřazen:

{"source": "Toto je věta.", "target": "这是一个句子。", "ratio": 1}

Německý překlad má srovnatelnou délku jako anglický zdroj a nebude vyřazen:

{"source": "Toto je věta.", "target": "Dies ist ein Satz.", "ratio": 1.1}

Německý překlad je mnohem delší než anglický zdroj a bude vyřazen:

{"source": "Toto je věta.", "target": "To je věta s dalšími zbytečnými výplněmi.", "ratio": 3.1}

Nepřekládané texty

Nepřekládané texty jsou segmenty, kde jsou zdrojové a cílové segmenty stejné. Vylučuje všechny nepřekládané páry vět, kde cílový text zůstává nezměněn od zdrojového textu.

Duplicitní

Skupiny segmentů jsou vytvářeny, které mají stejnou zdrojovou větu. Z každé skupiny je uchován pouze nejlepší segment, takže pokud je zdrojová věta segmentu jedinečná, je automaticky uchována. Jinak je uchován segment s nejvyšším skóre podobnosti.

Téměř duplicity

Při testování na téměř duplicity je (mírně čistší verze) zdrojové věty normalizována; všechny znaky, které nejsou písmeny (některé příklady: “,?)!-) jsou nahrazeny mezerou a všechna písmena jsou převedena na malá písmena.

Pomocí normalizované zdrojové věty jsou vytvářeny skupiny segmentů, které mají stejnou normalizovanou zdrojovou větu. Z každé skupiny je uchován pouze nejlepší segment, takže normalizovaná zdrojová věta segmentu je jedinečná a je automaticky uchována. Jinak je uchován segment s nejvyšším skóre podobnosti.

Identifikace jazyka

K identifikaci zdrojového a cílového jazyka na základě vět se používá nástroj umělé inteligence. Segment je odstraněn pouze v případě, že nástroj rozpozná (zdrojový/cílový) jazyk (například kratší věty často nestačí pro určení jazyka) a jazyk je odlišný od očekávaného.

QPS

Filtr QPS odstraňuje páry vět s nejnižší kvalitou v datovém souboru, aby zajistil, že výsledné modely umělé inteligence jsou trénovány na nejkvalitnějších dostupných datech. Obecně platí, že čím vyšší je kvalita tréninkových dat, tím lépe model na míru funguje.

Filtr QPS lze nakonfigurovat dvěma způsoby:

Odstranění určeného procenta párů vět s nejnižšími skóre QPS. Doporučení je 10%.
Výběr prahové hodnoty skóre. Použijte pokročilá nastavení k eliminaci párů vět, které klesají pod nastavitelné QPS prahové hodnoty. Doporučený výchozí bod je 50.

Tyto dvě možnosti poskytují automatizovanou kuraci datových sad, aby vyhovovaly kvalitativním cílům uživatelů.