セグメンテーションとは、原文をより小さな部分に分割することです。これにより、翻訳メモリから以前に翻訳したテキストを読み出せます。セグメントはエディタで表示され、フィルタリングできます。
デフォルトのセグメンテーション規則は、各サポート言語の詳細に対応しており、カスタマイズできます。
不適切なドキュメント ファイルや不適切なセグメンテーション カスタマイズの適用など、不適切なセグメンテーションでインポートされたジョブは、TM 一致値に影響を与えることがあります。
例:
適切なセグメンテーション:
-
多言語訳文言語による翻訳メモリがサポートされており、双方向で使用できます。
一致値 100%。
低セグメンテーション
-
多言語訳文言語による翻訳メモリがサポートされています。
一致値 100%。
-
双方向で使用できます。
一致は63%です。
カスタマイズされたセグメンテーション規則をジョブやプロジェクトテンプレートに適用できます。プロジェクトでカスタマイズされたセグメンテーション規則が必要な場合は、そのプロジェクト用にテンプレートを作成する必要があります。優先に設定すると、カスタマイズされたセグメンテーション規則が、その原文言語用にインポートされたすべての新規ジョブに適用されます。
セグメンテーション規則には 2 種類があります。
-
.XLSXファイルの略語
-
.SRXファイルの正規表現
カスタマイズされた規則を使用するには、デフォルト規則をダウンロード、変更し、変更後のファイルをアップロードし、指定されたジョブに適用します。
注意
スペースのない CJK 原文言語にカスタム セグメンテーション ルールを追加する場合訳文言語では単語区切りとしてスペースを使用します)、カスタム ルールによって分割された訳文セグメントの先頭または末尾にスペースが追加されるようにします。これにより、翻訳内の単語が区切られます。これは、デフォルトのセグメンテーション規則によって形成されるセグメントでは自動的に行われますが、手動分割セグメントや追加のカスタム セグメンテーション規則によって形成されるセグメントでは、スペースは追加されません。
デフォルトのセグメンテーション規則をダウンロードするには、次の手順に従います。
-
設定
ページで、 セクションまでスクロールし、セグメンテーションをクリックします。
ページが開きます。
-
カスタマイズする言語を選択し、エクスポート XLSX/SRX をクリックします。
のウィンドウが開きます。
-
ファイル形式選択:
-
XLSXには略語一覧があります。
-
SRXは正規表現ルールを提供します。
-
-
ドロップダウン一覧から言語を選択します。
-
ダウンロードをクリックします。
ファイルがシステムにダウンロードされます。
以前にアップロードしたセグメンテーション規則をダウンロードする手順は、次のとおりです。
-
設定
ページで、 セクションまでスクロールし、セグメンテーションをクリックします。
ページが開きます。
-
右側の設定アイコンをクリックし、「Customize columns:
(列のカスタマイズ)」を選択します。
-
ファイル名列を有効
-
ファイル名をクリックして、事前に保存されたルールをダウンロードします。
略語は言語ごとに指定でき、その後は新しいセグメントを作成しません。
略語の編集手順は、次のとおりです。
-
ダウンロードしたファイルをエディタで開きます。
-
次のフォーマットで内容を変更:
XLSX ファイルは、見出しのない 2 つの列を持つ必要があります。
-
列 1:指定する略語
-
列 2:セグメンテーション動作の仕様
-
ABBR_UPPER_NUM
略語の後に空白、数字、記号 (数学、通貨記号、ディンバットなど)、または最初の文字が大文字の単語が続く場合、新しいセグメントは作成されません。
-
ABBR_NUM
略語のあとに空白、数字が続く場合、新しいセグメントは作成されません。
-
-
-
編集した .XLSX ファイルを保存。
.SRXファイルの編集は、正規表現の使用経験があるユーザーのみに適した複雑なプロセスです
SRXファイルで変更できるルールはいくつかあります。
-
セグメンテーションなしで XLSX ファイルからテキストをインポート。1 セルは 1 セグメントです。
-
1 つのセグメントを 2 つに分割オーダーで改行付きテキストをインポート。
-
セグメント区切り文字としてコロン(またはその他の文字)を使用します。
-
セグメント区切り文字としてのセミコロン(またはその他の文字)の使用を禁止します。
-
一覧から略語を削除します(テキストはセグメント化されます)。
これらの規則は文字ベースです。セグメント区切り文字として使用できるのは 1 文字だけです。文字のグループ(たとえば: <p>)はセグメント区切り文字として使用できません。
SRXファイルの編集手順は、次のとおりです。
-
Notepad ++ などのテキスト エディタでファイルを開きます。
-
正規表現を使用して編集、または内部セグメンテーションを完全に削除。
例:
-
<rule break="no">
セグメントが壊れないルールの一覧。略語の一覧
-
<rule> <beforebreak>
休符の前の文字の正規表現 (たとえば、文の終わりの ".?! :")。たとえば、コロンのあとにセグメントテキストを含めない場合は、すべての
<rule><beforebreak>
コードから:
を削除します。 -
<rule> <afterbreak>
改行後の文字の正規表現(たとえば、新しい文の先頭、スペース、大文字など)。
-
-
変更したSRXファイルを保存。
変更または新しいセグメンテーション規則をアップロードするには、次の手順に従います。
ジョブインポートでカスタム規則を使用するには、次の手順に従います。
-
ジョブ作成のステップ 8 で、 からセグメンテーションとセグメント長をクリックします。
オプションのドロップダウンが開きます。
-
ダウンリストから、変更した規則を選択します。
-
作成をクリックします。
ジョブが作成され、指定されたセグメンテーション規則を使用して一覧に追加されます。
SRXファイルから内部セグメンテーション規則をすべて削除し、段落、要素、またはセル全体の基本セグメンテーションのみを適用します。このセグメンテーション規則は、すべてのファイル タイプ(MS Word、XML、HTML、Excel など)に適用できます。
例:
デフォルトのセグメンテーションでインポートされたこのXLSXの例は、3つのセグメントで構成されます。Peter!、Wait!、そしてこんにちわ。
内側のセグメンテーションがすべて削除され、セルに基づく基本的なセグメンテーションのみが残った場合、セグメントは2つだけになります。Peter!Wait! and Hello.
SRX ファイルを編集して、デフォルトのセグメンテーション規則 (<!-- break rules -->
と </languagerule>
の間のコードなど) をすべて削除します。
例:
カスケードは、この例が仕事にならない原因になることがあります。このような場合は、Notepad++ で編集した SRX ファイルを開き、header
要素の 2 つの属性を見つけ、両方とも no
に変更します。