Segmentace je rozdělení zdrojových textů na menší části. To zlepšuje vyhledávání dříve přeloženého textu z překladové paměti. Segmenty jsou prezentovány v editoru a mohou být filtrovány. Pokud má projekt pracovní postupy, změny v segmentech jsou prezentovány v panelu změn překladu.
Výchozí pravidla segmentace odpovídají specifikům každého podporovaného jazyka a mohou být přizpůsobena.
Úkoly importované s špatnou segmentací, jako jsou špatně formátované dokumenty nebo použití nevhodného přizpůsobení segmentace, mohou ovlivnit hodnoty shody TM. Doporučuje se strávit nějaký čas revizí a přípravou zdrojového souboru před importem; běžným problémem je nesprávné použití zalomení řádků versus zalomení odstavců.
Příklad:
Dobrá segmentace:
-
Překladové paměti s vícejazyčnými cílovými jazyky jsou podporovány a mohou být použity obousměrně.
Hodnota shody 100%.
Špatná segmentace
-
Překladové paměti s vícejazyčnými cílovými jazyky jsou podporovány.
Hodnota shody 100%.
-
a mohou být použity obousměrně.
Hodnota shody 63%.
Přizpůsobená pravidla segmentace mohou být aplikována na úkoly a šablony projektů. Pokud projekt vyžaduje přizpůsobené pravidlo segmentace, bude třeba vytvořit šablonu pro tento projekt. Když jsou nastavena jako primární, přizpůsobená pravidla segmentace se aplikují na všechny nové úkoly importované pro tento zdrojový jazyk.
Existují dva typy pravidel segmentace:
-
Zkratky do souboru .XLSX
-
Regulární výraz souborů .SRX
Pro použití přizpůsobených pravidel stáhněte výchozí pravidla, upravte je, nahrajte upravený soubor a poté je aplikujte na určené úkoly.
Pozor
Při přidávání vlastních pravidel segmentace pro jazyk CJK bez mezer (zatímco cílový jazyk bude používat mezery jako oddělovač slov) zajistěte, aby byly k cílovým segmentům rozděleným vlastním pravidlem přidány vedoucí nebo koncové mezery; to odděluje slova v překladu. Zatímco se to automaticky děje v segmentech vytvořených výchozími pravidly segmentace, žádné mezery nejsou přidány v ručně rozdělených segmentech nebo těch vytvořených dalšími vlastními pravidly segmentace.
Pro stažení výchozích pravidel segmentace postupujte podle těchto kroků:
-
Na stránce Nastavení
přejděte dolů do sekce a klikněte na Segmentace.
Otevře se stránka
. -
Vyberte jazyk, který má být přizpůsoben, a klikněte na Exportovat XLSX/SRX.
Otevře se okno
. -
Vyberte formát:
-
XLSX poskytuje seznam zkratek.
-
SRX poskytuje pravidla regulárního výrazu.
-
-
Vyberte jazyk ze seznamu.
-
Klikněte na Stáhnout.
Soubor je stažen do vašeho systému.
Pro stažení dříve nahraného pravidla segmentace, které jste nahráli dříve, postupujte podle těchto kroků:
-
Na stránce Nastavení
přejděte dolů do sekce a klikněte na Segmentace.
Otevře se stránka
. -
Klikněte na ikonu nastavení vpravo a vyberte Upravit sloupce:
-
Povolit sloupec název souboru
-
Klikněte na název souboru pro stažení předem uloženého pravidla.
Zkratky mohou být specifikovány pro jednotlivé jazyky, po kterých by nové segmenty neměly být vytvářeny.
Chcete-li upravit zkratky, postupujte podle těchto kroků:
-
Otevřete stažený soubor .XLSX v editoru.
-
Změňte obsah podle následujícího formátu:
Soubor XLSX musí mít dva sloupce bez záhlaví.
-
Sloupec 1: Zkratka, která má být specifikována
-
Sloupec 2: Specifikace chování segmentace
-
ABBR_UPPER_NUM
Nový segment nebude vytvořen, pokud je zkratka následována mezerou a poté číslem, symbolem (matematické, měnové značky, dingbats atd.) nebo slovem s prvním písmenem velkým.
-
ABBR_NUM
Nový segment nebude vytvořen, pokud je zkratka následována mezerou a poté číslem.
-
-
-
Uložte upravený soubor .XLSX.
Úprava souborů .SRX je složitý proces vhodný pouze pro uživatele zkušené v používání regulárních výrazů
Existuje několik pravidel, která lze změnit v souboru SRX:
-
Importujte text z XLSX souboru bez segmentace; jedna buňka se rovná jednomu segmentu.
-
Importujte text s novým řádkem, abyste rozdělili jeden segment na dva.
-
Použijte dvojtečku (nebo jakýkoli jiný znak) jako oddělovač segmentů.
-
Zakázat použití středníku (nebo jakéhokoli jiného znaku) jako oddělovače segmentů.
-
Odstranění zkratky ze seznamu (text bude segmentován).
Tato pravidla jsou na základě znaků; může být použit pouze jeden znak jako oddělovač segmentů. Skupiny znaků (například: <p>) nemohou být použity jako oddělovač segmentů.
Chcete-li upravit soubor SRX, postupujte podle těchto kroků:
-
Otevřete soubor v textovém editoru, jako je Notepad ++.
-
Upravte pomocí regulárních výrazů nebo úplně odstraňte vnitřní segmentaci.
Příklad:
-
<rule break="no">
Seznam pravidel, kde segment nebude rozbit. Tedy seznam zkratek
-
<rule> <beforebreak>
Regulární výraz pro znak před přerušením (například na konci věty ". ? ! :"). Pokud například nechcete segmentovat text po dvojtečce, jednoduše odstraňte
:
z každého<pravidlo><beforebreak>
kódu. -
<rule> <afterbreak>
Regulární výraz pro znak po přerušení (například na začátku nové věty; mezera a velké písmeno).
-
-
Uložte upravený soubor SRX.
Chcete-li nahrát upravená nebo nová pravidla segmentace, postupujte podle těchto kroků:
-
Na stránce Nastavení
přejděte dolů do sekce a klikněte na Segmentace.
Otevře se stránka
. -
Klikněte na Nový.
Otevře se stránka
. -
Vyberte
z rozbalovacího seznamu. -
Zadejte
pro pravidlo. -
Klikněte na Vybrat soubor.
Otevře se okno pro výběr souboru.
-
Vyberte soubor s upravenými pravidly pro nahrání.
-
Zaškrtněte
, pokud budou vlastní pravidla segmentace primárními pravidly segmentace pro vybraný jazyk. -
Klikněte na Vytvořit.
Otevře se stránka
a pravidlo bylo přidáno do seznamu.
Chcete-li použít vlastní pravidla při importu zakázky nebo nakonfigurovat cílovou délku segmentu, postupujte podle těchto kroků:
-
V kroku 8 vytváření zakázky klikněte na Segmentace a délka segmentu v .
Otevře se rozbalovací nabídka
. -
Vyberte upravená pravidla z rozbalovacího seznamu
. -
Volitelně nakonfigurujte limit pro cílovou délku segmentu na základě požadavků projektu (např. překlad titulků):
-
Vyberte
a zadejte preferované procento pro omezení délky segmentu na základě segmentu zdroje. -
Vyberte
a zadejte počet znaků pro omezení délky segmentu podle počtu znaků.
-
-
Klikněte na Vytvořit.
Zakázka je vytvořena a přidána do seznamu pomocí specifikovaných pravidel segmentace.
Odeberte všechna vnitřní pravidla segmentace ze souboru SRX a ponechte pouze základní segmentaci celého odstavce, prvku nebo buňky. Toto pravidlo segmentace lze použít na každý typ souboru (MS Word, XML, HTML, Excel atd.).
Příklad:
Tento příklad XLSX importovaný s výchozí segmentací bude mít 3 segmenty: Petře!, Počkej! a Ahoj.
Pokud je odstraněna veškerá vnitřní segmentace a ponechána pouze základní segmentace na základě buňky, pak jsou pouze dva segmenty: Petře! Počkej! a Ahoj.
Upravte soubor SRX, abyste odstranili všechna výchozí pravidla segmentace, tj. kód mezi <!-- pravidla přerušení -->
a </languagerule>
.
Příklad:
Kaskádování může způsobit, že tento příklad nebude fungovat. V takovém případě otevřete upravený soubor SRX v Notepad++, najděte dva atributy prvku hlavička
a změňte oba na ne
.