Filtry čištění

Obsah je strojově přeložen z angličtiny s použitím Phrase Language AI.

Nejdůležitějšími aspekty trénování MT enginů není jen objem, ale kvalita dat. Čištění dat je všudypřítomný problém a ruční čištění je pracné. Čistá data vedou k rychlejšímu trénování a modelům vyšší kvality.

Phrase Custom umělá inteligence přizpůsobuje překladové paměti do datových sad s pomocí čisticích filtrů založených na umělé inteligenci a pravidlech. Výchozí nastavení jsou poskytována a měla by být vhodná pro nové uživatele.

Sada dostupných filtrů zahrnuje jak filtry založené na pravidlech, tak filtry založené na strojovém učení:

Na bázi pravidel

Filtry, které pracují s jasně definovanými pravidly, jež jsou pro lidi snadno srozumitelná. Tato kategorie filtrů zahrnuje Rozsah dat, Minimální počet znaků, Délka páru vět, Poměr délky, Nepřeložitelné výrazy, Duplicity, Téměř duplicitní segmenty.
Na bázi strojového učení

Filtry, které analyzují obsah samotného textu, aby se rozhodly, namísto pouhého dodržování pevně stanovené sady pravidel. Tato kategorie filtrů zahrnuje Nesprávně zarovnaný zdroj a cíl a Identifikace jazyka.

Všechny filtry provádějí vyhodnocení na vyčištěných verzích segmentů; mimo jiné jsou vícenásobné mezery redukovány na jednu a jsou odstraněny tagy Phrase.

Rozsah dat

Vyloučí segmenty mimo nastavená data. Datum konce a začátku je zahrnuto spolu s datem poslední úpravy segmentu.

Nesprávně zarovnaný zdroj a cíl

Tento filtr určuje, jak dobře segmenty odpovídají z hlediska významu a sémantické podobnosti, a odstraňuje ty nejhůře hodnocené. Zarovnání páru vět se měří pomocí metriky LASER.

Nástroj umělá inteligence se používá ke kontrole, zda zdrojový a cílový text znamenají totéž nebo do jaké míry znamenají totéž. Doporučené nastavení zahodí 10 % nejhorších segmentů, zatímco ponechá 90 % nejlepších segmentů.

Pokročilé nastavení umožňuje změnu zarovnání nebo může být filtrovat založený na hrubém skóre podobnosti pomocí čísla mezi 0 a 1 (1 znamená Dokončit zarovnání). Opatrnost je na místě, pokud používáte hrubé skóre podobnosti, protože každý jazykový pár má jinou distribuci skóre a to, co je považováno za dobré skóre pro jeden jazykový pár, může být neuspokojivé skóre pro jiný.

Segmenty pod 0,5 obvykle nejsou příliš dobré a segmenty blízké nebo nad 1 jsou segmenty, které jsou v obou jazycích stejné.

Příklady:

{"source": "Super.", "target": "Super.", "similarity": 1.05}

{"source": "Hello", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}

Minimální počet znaků a písmen

Počet znaků zahrnuje všechny znaky. To zahrnuje všechna písmena, mezery, interpunkci a symboly. Pro účely trénování může být užitečné Zahodit segmenty, které neobsahují žádná písmena.

Počet písmen počítá pouze písmena, jako je anglická abeceda, ale také složitější znaky s diakritikou nebo čínské znaky. Jeden čínský znak se počítá jako jedno písmeno, i když představuje více než jeden znak. Pro jazyky založené na znacích jsou výchozí hodnoty 1, ale pro jazyky založené na slovech jsou výchozí hodnoty 4 (znaky) a 3 (písmena). Minimální hodnota je 1 a maximální hodnota je 500.

Pokud v datech uchováváte mnoho krátkých segmentů (například zkratky), udržujte hodnoty filtrovat nízké.

Příklad:

Řetězec \"Hello, World!" 1 2 3\" má 19 znaků a 10 písmen.

Délka páru vět

Tento filtrovat odstraní všechny segmenty, které jsou delší než prahová hodnota nastavená uživateli. Důvodem pro tento filtrovat je, že většina systémů NMT ve skutečnosti nebude trénovat na segmentech, které jsou delší než jejich interní prahová hodnota.

Například interní prahová hodnota NextMT je 200 tokenů, což odpovídá přibližně 100 - 1 000 slovům. Chcete-li trénovat Vlastní nástroj na kratších větách, nastavte tuto hodnotu na nižší, než je výchozí.

Celkový počet znak zahrnuje všechny znak - písmena, mezery a interpunkci - ze zdroj i cíl vět. Vezměte v úvahu typ jazyk (například čínština a angličtina); pokud zdroj jazyk není typu CJK a cíl jazyk je CJK (nebo naopak), bude tento filtrovat ignorován.

Poměr délky

Tento filtrovat identifikuje segment, kde je délka výrazně vyšší při porovnání zdroj segment a cíl segment. Některé překlady se při překladu ze zdroj do cíl jazyk prodlužují nebo zkracují. Příliš dlouhé nebo příliš krátké překlady mohou naznačovat nekvalitní trénovací data.

Pokud zdroj jazyk není typu CJK a cíl jazyk je (nebo naopak), bude tento filtrovat ignorován.CJK

Některé jazyk jsou obšírnější než jiné, takže 200 % je dobrá výchozí hodnota. Pokud je cíl jazyk podobný zdroj jazyk, nebo je třeba filtrovat více dat, může být hodnota nižší.

Příklady:

Jeden jazyk je CJK - poměr je 1. Nebude zahozeno:

{"zdroj": "This is a sentence.", "cíl": "这是一个句子。", "ratio": 1}

Německý překlad je srovnatelné délky jako anglický zdroj a nebude zahozen:

{"zdroj": "This is a sentence.", "cíl": "Dies ist ein Satz.", "poměr": 1.1}

Německý překlad je mnohem delší než anglický zdroj a bude zahozen:

{"zdroj": "This is a sentence.", "cíl": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "poměr": 3.1}

Nepřekládaný text

Nepřekládaný text jsou segmenty, kde jsou zdroj a cíl segment stejné. Vyloučí všechny páry vět typu nepřekládaný text, kde cíl text zůstává nezměněn oproti zdroj textu.

Duplikáty

Vytvářejí se skupiny segmentů, které mají stejný zdroj větu. Z každé skupiny je ponechán pouze nejlepší segment, takže pokud je zdroj věta segmentu unikátní, je automaticky ponechán. V opačném případě je ponechán segment s nejvyšším skóre podobnosti.

Téměř duplikáty

Při testování na téměř duplikáty se (mírně čistší verze) zdroj věty normalizuje; všechny znaky, které nejsou písmeny (některé příklady: “,?)!-), jsou nahrazeny Space a všechna písmena jsou převedena na malá.

Pomocí normalizovaného zdroj segmentu jsou vytvořeny skupiny segmentů, které mají stejný normalizovaný zdroj segment. Z každé skupiny je ponechán pouze nejlepší segment, takže pokud je normalizovaný zdroj segment unikátní, je automaticky ponechán. V opačném případě je ponechán segment s nejvyšším skóre podobnosti.

Identifikace jazyk

K identifikaci zdroj a cíl jazyk na základě vět se používá nástroj umělá inteligence. Segment je odstraněn pouze v případě, že nástroj rozpozná (zdroj/cíl) jazyk (například kratší věty často nástroji k určení jazyk nestačí) a jazyk se liší od očekávaného.

QPS

Filtr QPS odstraňuje páry vět s nejnižší kvalitou v datové sadě, aby bylo zajištěno, že výsledné modely umělá inteligence budou trénovány na datech nejvyšší dostupné kvality. Obecně platí, že čím vyšší je kvalita trénovacích dat, tím lépe přizpůsobený model funguje.

Filtr QPS lze nakonfigurovat dvěma způsoby:

Odstranění zadaného procenta párů vět s nejnižší skóre QPS. Doporučení je 10 %.
Výběr prahové hodnoty skóre. Použijte pokročilé nastavení k odstranění dvojic vět, které nedosahují nastavitelné prahové hodnoty QPS. Doporučený výchozí bod je 50.

Tyto dvě možnosti poskytují automatizovanou kuraci datové sady pro dosažení souladu s cíli kvality uživatelů.