Vytvořit dataset

Obsah je strojově přeložen z angličtiny s použitím Phrase Language AI.

Pokyny pro výběr překladové paměti

Phrase Custom AI využívá překladové paměti (TM) k vytvoření vlastních modelů strojového překladu (MT), které dodržují specifickou terminologii a styl, což vede ke zlepšení kvality překladu (a tím i ke zkrácení doby post-editace) pro tyto typy obsahu ve srovnání s obecným strojovým překladem.

Nejdůležitějším faktorem, který může ovlivnit účinnost procesu přizpůsobení, jsou použité překladové paměti. Toto jsou obecné pokyny, které mohou pomoci určit, jaká data použít pro tento účel:

Jednodoménní:

Nejlepší je, pokud se dataset zaměřuje na obsah pokrývající jeden styl a terminologii. Pokud dataset obsahuje směs domén (např. jak právní termíny webové stránky, tak popisy produktů), model může selhat v učení, jaký je požadovaný styl.
Jedinečný typ obsahu:

Vlastní model MT vychází z obecných modelů trénovaných na obrovských množstvích veřejných dat shromážděných z internetu. Pokud překladová paměť obsahuje data, která jsou velmi podobná obecným datům použitým k vytvoření obecných modelů, nebude z procesu přizpůsobení mnoho získáno.
Kvalita dat:

Model předpokládá, že každý pár vět v překladové paměti je příkladem výstupu, který se očekává, že vyprodukuje. Překladová paměť musí být kvalitní, ideálně vytvořená z profesionálních lidských překladů. Pipeline pro čištění dat může pomoci filtrovat nejškodlivější části datasetu.
Očekávaný objem:

Aby bylo přizpůsobení účinné z hlediska návratnosti investic (RoI), musí být dataset reprezentativní pro většinu dat, kde bude mít kvalita MT větší dopad. Například, pokud má být část výstupu MT post-editována lidskými překladateli, aby se maximalizoval RoI, musí být data reprezentativní pro obsah, který bude post-editován.

Vytváření datasetu pro automatizovanou kuraci aktiv má mírně odlišný proces.

Pro vytvoření datasetu za účelem trénování vlastního MT nástroje postupujte podle těchto kroků:

Na stránce Datasety klikněte na Trénovat vlastní MT nástroj.

Otevře se stránka Podrobnosti o datasetu.
Zadejte název pro dataset.
Výběr jazyků umožňuje různé možnosti:
1. Pro vytvoření obecného jazykového datasetu vyberte stejné zdrojové a cílové jazyky v selektorech zdrojového a cílového jazyka a kódu jazyka.
2. Pro vytvoření datasetu specifického pro lokalitu vyberte zdrojové a cílové jazyky z prvního rozbalovacího seznamu a poté specifikujte zdrojové a cílové lokality z druhého rozbalovacího seznamu.
  
  Můžete také přidat více cílových lokalit (tj. různé varianty stejného jazyka), abyste využili více zdrojů dat.
3. Pro vytvoření datasetu s více zdrojovými a cílovými lokalitami vyberte zdrojové a cílové jazyky z prvního rozbalovacího seznamu, specifikujte zdrojové a cílové lokality z druhého rozbalovacího seznamu (mohou být přidány různé varianty stejného cílového jazyka) a klikněte na + Přidat další páry lokalit.
Objeví se okno Vstupní data.
Klikněte na Přidat překladové paměti.

Otevře se stránka Vyberte překladové paměti s funkcí vyhledávání .
Pro přidání TM do datasetu klikněte na ikonu . TM je přidán do sloupce Vybrané.

Může být přidáno více TM, maximálně 200 TM a maximálně 8 milionů segmentů. Ideálně by měl dataset obsahovat alespoň 10 000 segmentů.

Kliknutím na název TM se zobrazí výběr na stránce překladová paměť.

Klikněte na ikonu pro odebrání TM ze sloupce Vybrané.
Klikněte na Uložit.

Otevře se stránka Podrobnosti o datasetu.
Zkontrolujte uvedené podrobnosti a pokud jsou správné, klikněte na Pokračovat.

Otevře se stránka Čistící filtry.
Použijte požadované filtry a klikněte na vytvořit.

Dataset je vytvořen a přidán do seznamu na stránce Datasety s počátečním stavem Údržba a stavem Trénink MT ve sloupci Vytvořeno pro.