Automatizované spravování aktiv

Obsah je strojově přeložen z angličtiny s použitím Phrase Language AI.

Správa překladových pamětí je dlouhodobý a rozšířený problém a manuální čištění je pracný proces. Čisté překladové paměti vedou k lepším referencím pro lingvisty a vyšší kvalitě strojového překladu, což je zvlášť relevantní pro Phrase NextMT, vzhledem k jeho pokročilým schopnostem využívat jazykové zdroje, jako jsou překladové paměti a glosáře.

Vytvořit dataset pro AAC

Pro vytvoření datasetu za účelem použití kurátorované TM v TMS, postupujte podle těchto kroků:

Na stránce Datasets klikněte na Čistit překladovou paměť.

Otevře se stránka Podrobnosti o datasetu.
Zadejte název pro dataset.
Výběr jazyků umožňuje různé možnosti:
1. Pro vytvoření obecného jazykového datasetu vyberte stejné zdrojové a cílové jazyky v selektorech zdrojového a cílového jazyka a lokality.
2. Pro vytvoření datasetu specifického pro lokalitu vyberte zdrojové a cílové jazyky z prvního rozbalovacího seznamu a poté specifikujte zdrojové a cílové lokality z druhého rozbalovacího seznamu.
  
  Mnoho cílových lokalit (tj. různé varianty stejného jazyka) pro využití více zdrojů dat může být také přidáno.
3. Pro vytvoření datasetu s více zdrojovými a cílovými lokalitami vyberte zdrojové a cílové jazyky z prvního rozbalovacího seznamu, specifikujte zdrojové a cílové lokality z druhého rozbalovacího seznamu (různé varianty stejného cílového jazyka mohou být přidány) a klikněte na + Přidat další páry lokalit.
Objeví se okno Vstupní data.
Klikněte na Přidat překladové paměti.

Otevře se stránka Vybrat překladové paměti s funkcionalitou vyhledávání .
Pro přidání TM do datasetu klikněte na ikonu . TM je přidána do sloupce Vybrané.

Mnoho TM může být přidáno maximálně 200 TM a maximálně 8 milionů segmentů. Ideálně by dataset měl obsahovat alespoň 10 000 segmentů.

Kliknutím na název TM se zobrazí výběr na stránce překladová paměť.

Klikněte na ikonu pro odebrání TM ze sloupce Vybrané.
Klikněte na Uložit.

Otevře se stránka Podrobnosti o datasetu.
Zkontrolujte uvedené detaily a pokud jsou správné, klikněte na pokračovat.

Otevře se stránka Údržba filtrů.
Použijte požadované filtry a klikněte na vytvořit.

Dataset je vytvořen a přidán do seznamu na stránce Datasety s počátečním stavem Údržba a stavem Údržba TM ve sloupci Vytvořeno pro.

Údržba filtrů pro AAC

Phrase Custom AI umožňuje kurátorování překladových pamětí s pomocí AI a pravidlových čisticích filtrů. Jsou poskytnuta výchozí nastavení, která mohou být vhodná pro nové uživatele.

Tento proces zachovává původní metadata segmentu TM a tagy TM, což uživatelům umožňuje udržovat využití TM při používání vyčištěných TM v TMS.

Sada dostupných filtrů zahrnuje jak pravidlové filtry, tak filtry založené na ML:

Pravidlové

Filtry, které fungují s jasně definovanými pravidly, která jsou snadno pochopitelná lidmi. Tato kategorie filtrů zahrnuje Rozsah dat, Minimální počet znaků, Délka páru vět, Poměr délky, Nepřekladatelné, Duplicitní, Blízké duplicity.
Filtry založené na ML

Filtry, které analyzují obsah textu samotného, aby se rozhodly, spíše než aby jednoduše následovaly pevně stanovenou sadu pravidel. Tato kategorie filtrů zahrnuje Špatně zarovnané zdroje a cíle a Identifikace jazyka.

Rozsah dat

Vylučuje segmenty mimo stanovené datum. K datům začátku a konce jsou zahrnuta také data poslední úpravy segmentu.

Nesouhlasící zdroj a cíl

Tento filtr určuje, jak dobře segmenty odpovídají z hlediska významu a sémantické podobnosti, přičemž odstraňuje nejhůře hodnocené. Zarovnání dvojic vět se měří pomocí metriky LASER.

K ověření, že zdrojový a cílový text znamenají to samé nebo jak moc toho samého, se používá nástroj umělé inteligence. Doporučené nastavení zahazuje 10 % nejhorších segmentů a zachovává 90 % nejlepších segmentů.

Pokročilá nastavení umožňují změnu zarovnání nebo mohou být filtrem založeným na surovém skóre podobnosti pomocí čísla mezi 0 a 1 (1 znamená úplné zarovnání). Je doporučeno být opatrný při používání surového skóre podobnosti, protože každý jazykový pár má jinou distribuci skóre a to, co je považováno za dobré skóre pro jeden jazykový pár, může být neuspokojivé pro jiný.

Obvykle segmenty pod 0,5 nejsou příliš dobré a segmenty blízko nebo nad 1 jsou segmenty, které jsou stejné v obou jazycích.

Příklady:

Řetězec "Ahoj, světe! 1 2 3" má 19 znaků a 10 písmen.

Minimální počet znaků a písmen

Počet znaků zahrnuje všechny znaky. To zahrnuje všechna písmena, bílé prostory a interpunkci a symboly. Pro tréninkové účely může být užitečné zahodit segmenty, které neobsahují žádná písmena.

Počet písmen počítá pouze písmena, jako v anglické abecedě, ale také složitější znaky s diakritikou nebo čínské znaky. Jeden čínský znak se počítá jako jedno písmeno, i když představuje více než jeden znak. Pro jazyky založené na znacích jsou výchozí hodnoty 1, ale pro jazyky založené na slovech jsou výchozí hodnoty 4 (znaky) a 3 (písmena). Minimální hodnota je 1 a maximální hodnota je 500.

Pokud uchováváte mnoho krátkých segmentů v datech (například zkratky), udržujte hodnoty filtru nízké.

Příklad:

Řetězec "Ahoj, světe! 1 2 3" má 19 znaků a 10 písmen.

Délka páru vět

Tento filtr odstraňuje všechny segmenty, které jsou delší než prahová hodnota nastavená uživateli.

Celkový počet znaků zahrnuje všechny znaky - písmena, bílé znaky a interpunkci - z obou vět zdroje a cíle. Zvažte typ jazyka (například čínština a angličtina); pokud zdrojový jazyk není podobný CJK a cílový jazyk je CJK (nebo naopak), tento filtr bude ignorován.

Poměr délky

Tento filtr identifikuje segmenty, kde je délka výrazně vyšší při porovnání segmentu zdroje a segmentu cíle. Některé překlady se při překladu ze zdrojového do cílového jazyka zvyšují nebo snižují na délce. Příliš dlouhé nebo příliš krátké překlady mohou naznačovat nízkou kvalitu segmentů.

Pokud zdrojový jazyk není podobný CJK a cílový jazyk je (nebo naopak), tento filtr bude ignorován.CJK

Některé jazyky jsou obsažnější než jiné, takže 200% je dobrý výchozí bod. Pokud je cílový jazyk podobný zdrojovému jazyku, nebo pokud je potřeba filtrovat více dat, může být hodnota nižší.

Příklady:

Jeden jazyk je CJK - poměr je 1. Nebude vyřazen:

{"source": "Toto je věta.", "target": "这是一个句子。", "ratio": 1}

Německý překlad má srovnatelnou délku jako anglický zdroj a nebude vyřazen:

{"source": "Toto je věta.", "target": "Dies ist ein Satz.", "ratio": 1.1}

Německý překlad je mnohem delší než anglický zdroj a bude vyřazen:

{"source": "Toto je věta.", "target": "Toto je věta s dalšími zbytečnými výplněmi.", "ratio": 3.1}

Nepřekládaný text

Nepřekládané texty jsou segmenty, kde jsou zdrojové a cílové segmenty stejné. Vylučuje všechny nepřekládané páry vět, kde se cílový text nezměnil od zdrojového textu.

Duplicitní

Skupiny segmentů jsou vytvářeny, které mají stejnou zdrojovou větu. Z každé skupiny je uchován pouze nejlepší segment, takže pokud je zdrojová věta segmentu jedinečná, je automaticky uchována. Jinak je uchován segment s nejvyšším skóre podobnosti.

Téměř duplicity

Při testování na téměř duplicity je (trochu čistší verze) zdrojové věty normalizována; všechny znaky, které nejsou písmeny (některé příklady: “,?)!-) jsou nahrazeny mezerou a všechna písmena jsou převedena na malá písmena.

Pomocí normalizované zdrojové věty jsou vytvářeny skupiny segmentů, které mají stejnou normalizovanou zdrojovou větu. Z každé skupiny je uchován pouze nejlepší segment, takže normalizovaná zdrojová věta segmentu je jedinečná a je automaticky uchována. Jinak je uchován segment s nejvyšším skóre podobnosti.

Identifikace jazyka

K identifikaci zdrojového a cílového jazyka na základě vět se používá nástroj umělé inteligence. Segment je odstraněn pouze tehdy, pokud nástroj rozpozná (zdrojový/cílový) jazyk (například kratší věty často nestačí pro určení jazyka) a jazyk je odlišný od očekávaného.

QPS

Filtr QPS umožňuje odstranit páry vět s nejnižší kvalitou v překladové paměti, aby se zajistilo, že výsledné segmenty jsou nejvyšší kvality.

Filtr QPS může být nakonfigurován dvěma způsoby:

Odstranění stanoveného procenta párů vět s nejnižšími skóre QPS. Doporučení je 10%.
Výběr prahové hodnoty skóre. Použijte pokročilá nastavení k eliminaci párů vět, které klesají pod nastavitelné QPS prahové hodnoty. Doporučený výchozí bod je 50.

Tyto dvě možnosti poskytují automatizovanou kuraci překladové paměti, aby se sladily s cíli kvality uživatelů.

Používání kurovaných TM v TMS

Proces čištění překladové paměti, který může trvat několik hodin, musí být dokončen, než může být kurovaná TM použita.

Chcete-li použít kurovanou TM v TMS, postupujte podle těchto kroků:

Klikněte na a vyberte stáhnout .

Otevře se okno pro stažení.
Vyberte Stáhnout (.tmx).

To spustí proces exportu dat, který potrvá pouze několik minut. Výsledná kurovaná TM ve formátu .TMX může být poté nahrána do TMS jako nová, kurovaná TM o velikosti až 1 Gb.

Pokud byly na stejné TM provedeny dva nebo více procesů čištění, různé verze mohou být přístupné v záložce Historie čištění.