セグメンテーションは、ソーステキストを小さな部分に分割することです。これにより、翻訳メモリから以前に翻訳されたテキストの取得が改善されます。セグメントはエディタに表示され、フィルタリングできます。プロジェクトにワークフローステップがある場合、セグメントの変更は翻訳変更ペインに表示されます。
デフォルトのセグメンテーションルールは、各サポートされている言語の特性に対応しており、カスタマイズ可能です。
ジョブが不適切なセグメンテーション(例えば、フォーマットが不適切なドキュメントファイルや不適切なセグメンテーションカスタマイズの適用)でインポートされると、TMの一致値に影響を与える可能性があります。インポート前にソースファイルをレビューし準備するために時間をかけることをお勧めします。一般的な問題は、行の改行と段落の改行の誤った使用です。
例::
良いセグメンテーション:
-
多言語ターゲット言語を持つ翻訳メモリがサポートされており、双方向で使用できます。
一致値は100%。
悪いセグメンテーション
-
多言語ターゲット言語を持つ翻訳メモリがサポートされています。
一致値は100%。
-
双方向で使用できます。
一致値は63%。
カスタマイズされたセグメンテーションルールはジョブおよびプロジェクトテンプレートに適用できます。プロジェクトにカスタマイズされたセグメンテーションルールが必要な場合、そのプロジェクトのためにテンプレートを作成する必要があります。プライマリとして設定されると、カスタマイズされたセグメンテーションルールがそのソース言語のすべての新しいジョブに適用されます。
セグメンテーションルールには2種類あります:
-
略語を.XLSXファイルに
-
正規表現の.SRXファイル
カスタマイズされたルールを使用するには、デフォルトのルールをダウンロードし、修正し、修正したファイルをアップロードしてから、指定されたジョブに適用します。
注意
スペースのないCJKソース言語にカスタムセグメンテーションルールを追加する際(ターゲット言語は単語区切りとしてスペースを使用します)、カスタムルールで分割されたターゲットセグメントに先頭または末尾のスペースを追加することを確認してください。これにより、翻訳内の単語が区切られます。これはデフォルトのセグメンテーションルールによって形成されたセグメントでは自動的に行われますが、手動で分割されたセグメントや追加のカスタムセグメンテーションルールによって形成されたセグメントにはスペースは追加されません。
デフォルトのセグメンテーションルールをダウンロードするには、次の手順に従ってください:
-
設定
ページから、セクションまでスクロールし、セグメンテーションをクリックします。
ページが開きます。
-
カスタマイズする言語を選択し、エクスポート XLSX/SRXをクリックします。
ウィンドウが開きます。
-
形式を選択:
-
XLSXは略語リストを提供します。
-
SRXは正規表現ルールを提供します。
-
-
ドロップダウンリストから言語を選択します。
-
ダウンロードをクリックします。
ファイルはシステムにダウンロードされます。
以前にアップロードしたセグメンテーションルールをダウンロードするには、次の手順に従ってください:
-
設定
ページから、セクションまでスクロールし、セグメンテーションをクリックします。
ページが開きます。
-
右側の設定アイコンをクリックし、カスタマイズ列を選択します:
-
ファイル名列を有効にします
-
ファイル名をクリックして、事前に保存されたルールをダウンロードします。
略語は個別の言語に対して指定でき、その後新しいセグメントは作成されないべきです。
略語を編集するには、次の手順に従ってください:
-
ダウンロードした.XLSXファイルをエディタで開きます。
-
次のフォーマットで内容を変更します:
XLSXファイルには見出しのない2つの列が必要です。
-
列1:指定する略語
-
列2:セグメンテーション動作の仕様
-
ABBR_UPPER_NUM
略語の後に空白があり、その後に数字、記号(数学、通貨記号、デイングバットなど)、または最初の文字が大文字の単語が続く場合、新しいセグメントは作成されない。
-
ABBR_NUM
略語の後に空白があり、その後に数字が続く場合、新しいセグメントは作成されない。
-
-
-
編集した.XLSXファイルを保存します。
SRXファイルの編集は、正規表現の使用に経験のあるユーザーにのみ適した複雑なプロセスです。
SRXファイル内で変更できるいくつかのルールがあります:
-
セグメンテーションなしでXLSXファイルからテキストをインポートします;1つのセルは1つのセグメントに等しいです。
-
1つのセグメントを2つに分割するために新しい行でテキストをインポートします。
-
セグメント区切りとしてコロン(または他の任意の文字)を使用します。
-
セグメント区切りとしてセミコロン(または他の任意の文字)の使用を禁止します。
-
リストから略語を削除します(テキストはセグメント化されます)。
これらのルールは文字ベースです;セグメント区切りとして使用できるのは単一の文字のみです。文字のグループ(例えば:<p>)はセグメント区切りとして使用できません。
SRXファイルを編集するには、次の手順に従います:
-
Notepad ++のようなテキストエディタでファイルを開きます。
-
正規表現を使用して編集するか、内部のセグメンテーションを完全に削除します。
例:
-
<rule break="no">セグメントが壊れないルールのリスト。すなわち、略語のリスト
-
<rule> <beforebreak>区切りの前の文字のための正規表現(例えば、文の終わりで ". ? ! :")。例えば、コロンの後にセグメントテキストを望まない場合は、すべての
<rule><beforebreak>コードから:を単純に削除します。 -
<rule> <afterbreak>区切りの後の文字のための正規表現(例えば、新しい文の始まりで;スペースと大文字)。
-
-
修正されたSRXファイルを保存します。
修正されたまたは新しいセグメンテーションルールをアップロードするには、次の手順に従います:
ジョブインポートでカスタムルールを使用するか、ターゲットセグメントの長さを設定するには、次の手順に従ってください:
-
ジョブを作成のステップ8で、セグメンテーションとセグメントの長さをからクリックしてください。
オプションのドロップダウンが開きます。
-
のドロップダウンリストから修正されたルールを選択してください。
-
オプションで、プロジェクトの要件に基づいてターゲットセグメントの長さの制限を設定します(例:字幕翻訳):
-
を選択し、ソースセグメントに基づいてセグメントの長さを制限するための希望のパーセンテージを入力してください。
-
を選択し、文字数でセグメントの長さを制限するための文字数を入力してください。
-
-
作成をクリックしてください。
指定されたセグメンテーションルールを使用してジョブが作成され、リストに追加されます。
SRXファイルからすべての内部セグメンテーションルールを削除し、段落、要素、またはセル全体の基本的なセグメンテーションのみを適用します。このセグメンテーションルールは、すべてのファイルタイプ(MS Word、XML、HTML、Excelなど)に適用できます。
例:
このXLSXの例は、デフォルトのセグメンテーションでインポートされ、3つのセグメントを持ちます:ピーター!、待って!、およびこんにちは。
すべての内部セグメンテーションが削除され、セルに基づく基本的なセグメンテーションのみが残る場合、セグメントは2つだけになります:ピーター!待って!およびこんにちは。
SRXファイルを編集して、すべてのデフォルトのセグメンテーションルール、すなわち<!-- break rules -->と</languagerule>の間のコードを削除します。
例:
カスケーディングは、この例が機能しない原因となる可能性があります。その場合、編集したSRXファイルをNotepad++で開き、header要素の2つの属性を見つけて、両方をnoに変更します。