Segmentace je rozdělení zdrojových textů na menší části. Tím se zlepší vyhledávání dříve přeloženého textu v překladové paměti. Segmenty se zobrazují v editoru a lze je filtrovat.
Výchozí pravidla segmentace odpovídají specifikům každého podporovaného jazyka a lze je přizpůsobit.
Zakázky importované se špatnou segmentací, jako jsou špatně formátované soubory dokumentů nebo použití nevhodných úprav segmentace, mohou ovlivnit hodnoty shod TM.
Příklad:
Dobrá segmentace:
-
Překladové paměti s vícejazyčnými cílovými jazyky jsou podporovány a lze je použít obousměrně.
Hodnota shody 100 %.
Špatná segmentace
-
Překladové paměti s vícejazyčnými jazyky cíle jsou podporovány.
Hodnota shody 100 %.
-
a lze je použít obousměrně.
Hodnota shody 63 %.
Přizpůsobená pravidla segmentace lze použít na zakázky a šablony projektů. Pokud projekt vyžaduje vlastní pravidlo segmentace, bude pro něj třeba vytvořit šablonu. Pokud je nastavena jako primární, použijí se na všechny nové zakázky importované pro daný zdroj jazyk vlastní pravidla segmentace.
Existují dva typy pravidel segmentace:
-
Zkratky souboru .XLSX
-
Regulární výraz pro soubory .SRX
Chcete-li použít vlastní pravidla, stáhněte si výchozí pravidla, upravte je, nahrajte upravený soubor a použijte je na vybrané zakázky.
Pozor
Při přidávání vlastní segmentace pravidel pro zdroj jazyk CJK bez Space (zatímco cíl jazyk bude používat mezery jako oddělovač slov) zajistěte, aby byly do cíl segmentů rozdělit vlastní pravidlem přidány mezery na začátku nebo konci segmentu; to odděluje slova v překladu. V segmentech tvořených výchozími segmentace pravidly se to děje automaticky, ale v ručně rozdělit segmentech nebo segmentech tvořených dalšími vlastní segmentace pravidly nejsou přidány mezery.
Chcete-li stáhnout výchozí pravidla segmentace, postupujte takto:
-
Na stránce Nastavení
přejděte dolů do oddílu a klikněte na Segmentace.
Otevře se stránka
. -
Vyberte jazyk, který chcete upravit, a klikněte na Stáhnout XLSX/SRX.
Otevře se okno
. -
Vyberte formát:
-
XLSX poskytuje seznam zkratek.
-
SRX stanoví pravidla regulárních výrazů.
-
-
Z rozevíracího seznamu vyberte jazyk.
-
Klikněte na Stáhnout.
Soubor se stáhne do vašeho systému.
Chcete-li stáhnout dříve nahrané pravidlo pro segmentaci, které jste již nahráli, postupujte takto:
-
Na stránce Nastavení
přejděte dolů do oddílu a klikněte na Segmentace.
Otevře se stránka
. -
Klikněte na ikonu Nastavení vpravo a zvolte Upravit sloupce:
-
Povolit sloupec Název souboru
-
Kliknutím na název souboru si stáhnete předuložené pravidlo.
Pro jednotlivé jazyky lze určit zkratky, po kterých se nemají vytvářet nové segmenty.
Zkratky můžete upravit takto:
-
Otevřete stažený soubor .XLSX v editoru.
-
Změňte obsah následujícím formátováním:
Soubor XLSX musí mít dva sloupce bez záhlaví.
-
Sloupec 1: Upřesní se zkratka
-
Sloupec 2: Specifikace chování segmentace
-
ABBR_UPPER_NUM
Nový segment se nemůže vytvořit, pokud za zkratkou následuje white-Space a poté číslo, symbol (matematika, měnové znaky, dingbats atd.) nebo slovo s velkým písmenem.
-
ABBR_NUM
Nový segment není vytvořen, pokud po zkratce následuje white-Space a pak číslo.
-
-
-
Uložte upravený soubor .XLSX.
Editace souborů .SRX je složitý proces vhodný pouze pro uživatele, kteří mají zkušenosti s používáním regulárních výrazů
V souboru SRX lze změnit několik pravidel:
-
Import textu ze souboru XLSX bez segmentace; jedna buňka se rovná jednomu segmentu.
-
Import textu s novým řádkem s objednávkou rozdělit jeden segment na dva.
-
Jako oddělovač segmentů použijte dvojtečku (nebo jiný znak).
-
Zakažte použít středník (nebo jiný znak) jako oddělovač segmentů.
-
Odebírání zkratky ze seznamu (text bude segmentován).
Tato pravidla jsou založena na znacích; jako oddělovač segmentů lze použít pouze jeden znak. Skupiny znaků (např.: <p>) nelze použít jako oddělovač segmentů.
Soubor SRX upravíte takto:
-
Otevřete soubor v textovém editoru, jako je Poznámkový blok ++.
-
Upravit pomocí regulárních výrazů nebo zcela odebrat vnitřní segmentaci.
Příklad:
-
<rule break="ne">
Seznam pravidel, ve kterých nebude segment zalomený. Tj. seznam zkratek
-
<pravidlo> <před přestávkou>
Regulární výraz pro znak před zalomením (např. na konci věty „. ? ! :“). Pokud například nechcete text segmentu po dvojtečce, jednoduše odstraňte
:
z každého kódu<pravidla><před zalomením>
. -
<rule> <afterbreak>
Regulární výraz pro znak po zalomení (například na začátku nové věty; Space a velké písmeno).
-
-
Uložit upravený soubor SRX.
Upravená nebo nová pravidla segmentace nahrajete takto:
-
Na stránce Nastavení
přejděte dolů do oddílu a klikněte na Segmentace.
Otevře se stránka
. -
Klikněte na Nový.
Otevře se stránka
s pravidly segmentace ve formátu XLSX nebo SRX. -
Z rozevíracího seznamu vyberte
. -
Zadejte
pravidla. -
Klikněte na Vybrat soubor.
Otevře se okno pro výběr souboru.
-
Vyberte soubor upravených pravidel, který chcete nahrát.
-
Zaškrtněte
, zda budou primárními pravidly segmentace pro vybraný jazyk vlastní pravidla segmentace. -
Klikněte na Vytvořit.
Otevře se stránka
a pravidlo bylo přidáno do seznamu.
Chcete-li použít vlastní pravidla pro import zakázky, postupujte takto:
-
Ve fázi 8 vytvoření zakázky klikněte v na položku Segmentace a délka segmentu.
Otevře se rozevírací seznam možností
. -
Vyberte změněná pravidla z rozevíracího seznamu
. -
Klikněte na Vytvořit.
Zakázka je vytvořena a přidána do seznamu podle zadaných pravidel segmentace.
Odebrat všechna vnitřní pravidla pro segmentaci ze souboru SRX a ponechat pouze základní segmentaci celého použitého odstavce, elementu nebo buňky. Toto pravidlo segmentace lze použít pro všechny typy souborů (MS Word, XML, HTML, Excel atd.).
Příklad:
Tento příklad XLSX importovaný s výchozí segmentací bude mít 3 segmenty: Petere!, Počkej! a Ahoj.
Pokud je odstraněna veškerá vnitřní segmentace a ponechána pouze základní segmentace založená na buňce, pak existují pouze dva segmenty: Petere! Počkejte! a ahoj.
Upravit soubor SRX a odebrat všechna výchozí pravidla segmentace, tj. kód mezi <!-- porušení pravidel -->
a </languagerule>
.
Příklad:
Kaskádování může způsobit, že tento příklad nebude zakázku. V tom případě otevřete upravený soubor SRX v programu Notepad ++, najděte dva atributy elementu záhlaví
a změňte oba na ne
.