Pokyny pro výběr překladové paměti
Phrase Custom AI využívá překladové paměti (TM) k vytvoření vlastních modelů strojového překladu (MT), které dodržují specifickou terminologii a styl, což vede ke zlepšení kvality překladu (a tím i ke zkrácení doby post-editace) pro tyto typy obsahu ve srovnání s obecným strojovým překladem.
Nejdůležitějším faktorem, který může ovlivnit účinnost procesu přizpůsobení, jsou použité překladové paměti. Toto jsou obecné pokyny, které mohou pomoci určit, jaká data použít pro tento účel:
-
Jednodoménní:
Nejlepší je, pokud se dataset zaměřuje na obsah pokrývající jeden styl a terminologii. Pokud dataset obsahuje směs domén (např. jak právní termíny webové stránky, tak popisy produktů), model může selhat v učení, jaký je požadovaný styl.
-
Jedinečný typ obsahu:
Vlastní model MT vychází z obecných modelů trénovaných na obrovských množstvích veřejných dat shromážděných z internetu. Pokud překladová paměť obsahuje data, která jsou velmi podobná obecným datům použitým k vytvoření obecných modelů, nebude z procesu přizpůsobení mnoho získáno.
-
Kvalita dat:
Model předpokládá, že každý pár vět v překladové paměti je příkladem výstupu, který se očekává, že vyprodukuje. Překladová paměť musí být kvalitní, ideálně vytvořená z profesionálních lidských překladů. Pipeline pro čištění dat může pomoci filtrovat nejškodlivější části datasetu.
-
Očekávaný objem:
Aby bylo přizpůsobení účinné z hlediska návratnosti investic (RoI), musí být dataset reprezentativní pro většinu dat, kde bude mít kvalita MT větší dopad. Například, pokud má být část výstupu MT post-editována lidskými překladateli, aby se maximalizoval RoI, musí být data reprezentativní pro obsah, který bude post-editován.
Vytváření datasetu pro automatizovanou kuraci aktiv má mírně odlišný proces.
Pro vytvoření datasetu za účelem trénování vlastního MT nástroje postupujte podle těchto kroků:
-
Na stránce klikněte na Trénovat vlastní MT nástroj.
Otevře se stránka .
-
Zadejte název pro dataset.
-
Výběr jazyků umožňuje různé možnosti:
-
Pro vytvoření obecného jazykového datasetu vyberte stejné zdrojové a cílové jazyky v selektorech zdrojového a cílového jazyka a kódu jazyka.
-
Pro vytvoření datasetu specifického pro lokalitu vyberte zdrojové a cílové jazyky z prvního rozbalovacího seznamu a poté specifikujte zdrojové a cílové lokality z druhého rozbalovacího seznamu.
Můžete také přidat více cílových lokalit (tj. různé varianty stejného jazyka), abyste využili více zdrojů dat.
-
Pro vytvoření datasetu s více zdrojovými a cílovými lokalitami vyberte zdrojové a cílové jazyky z prvního rozbalovacího seznamu, specifikujte zdrojové a cílové lokality z druhého rozbalovacího seznamu (mohou být přidány různé varianty stejného cílového jazyka) a klikněte na + Přidat další páry lokalit.
Objeví se okno .
-
-
Klikněte na Přidat překladové paměti.
Otevře se stránka s funkcí vyhledávání
.
-
Pro přidání TM do datasetu klikněte na ikonu
. TM je přidán do sloupce .
Může být přidáno více TM, maximálně 200 TM a maximálně 8 milionů segmentů. Ideálně by měl dataset obsahovat alespoň 10 000 segmentů.
Kliknutím na název TM se zobrazí výběr na stránce překladová paměť.
Klikněte na ikonu
pro odebrání TM ze sloupce .
-
Klikněte na Uložit.
Otevře se stránka .
-
Zkontrolujte uvedené podrobnosti a pokud jsou správné, klikněte na Pokračovat.
Otevře se stránka .
-
Použijte požadované filtry a klikněte na vytvořit.
Dataset je vytvořen a přidán do seznamu na stránce s počátečním stavem a stavem ve sloupci .