Segmentation Rules (TMS)

本コンテンツはPhrase Language AIの機械翻訳により、英語から翻訳されています。

セグメンテーション

セグメンテーションは、ソーステキストを小さな部分に分割することです。これにより、翻訳メモリから以前に翻訳されたテキストの取得が改善されます。セグメントはエディタに表示され、フィルタリングできます。プロジェクトにワークフローステップがある場合、セグメントの変更は翻訳変更ペインに表示されます。

デフォルトのセグメンテーションルールは、各サポートされている言語の特性に対応しており、カスタマイズ可能です。

不適切なセグメンテーションカスタマイズや、フォーマットが不適切なドキュメントファイルなどの悪いセグメンテーションでインポートされたジョブは、TMマッチ値に影響を与える可能性があります。インポート前にソースファイルをレビューし準備するために時間をかけることをお勧めします。一般的な問題は、行の改行と段落の改行の誤った使用です。

例：:

良いセグメンテーション：

多言語ターゲット言語を持つ翻訳メモリがサポートされており、双方向で使用できます。

マッチ値は100%。

悪いセグメンテーション

多言語ターゲット言語を持つ翻訳メモリがサポートされています。

マッチ値は100%。
そして双方向で使用できます。

マッチ値は63%。

セグメンテーションルールのカスタマイズ

カスタマイズされたセグメンテーションルールは、ジョブおよびプロジェクトテンプレートに適用できます。プロジェクトにカスタマイズされたセグメンテーションルールが必要な場合、そのプロジェクト用のテンプレートを作成する必要があります。プライマリとして設定されると、カスタマイズされたセグメンテーションルールは、そのソース言語のすべての新しいジョブに適用されます。

セグメンテーションルールには2種類あります：

略語を.XLSXファイルに
正規表現の.SRXファイル

カスタマイズされたルールを使用するには、デフォルトのルールをダウンロードし、それを修正して、修正したファイルをアップロードし、指定されたジョブに適用します。

注意

スペースのないCJKソース言語のカスタムセグメンテーションルールを追加する場合（ターゲット言語は単語区切りとしてスペースを使用します）、カスタムルールで分割されたターゲットセグメントに先頭または末尾のスペースを追加することを確認してください。これにより、翻訳内の単語が区切られます。これはデフォルトのセグメンテーションルールによって形成されたセグメントでは自動的に行われますが、手動で分割されたセグメントや追加のカスタムセグメンテーションルールによって形成されたセグメントにはスペースは追加されません。

デフォルトのセグメンテーションルールをダウンロード

デフォルトのセグメンテーションルールをダウンロードするには、次の手順に従ってください：

設定ページから、プロジェクト設定セクションまでスクロールし、セグメンテーションをクリックします。

セグメンテーションページが開きます。
カスタマイズする言語を選択し、エクスポートXLSX/SRXをクリックします。

エクスポートXLSX/SRXウィンドウが開きます。
ファイル形式を選択：
- XLSXは略語リストを提供します。
- SRXは正規表現ルールを提供します。
ドロップダウンリストから言語を選択します。
ダウンロードをクリックします。

ファイルがシステムにダウンロードされます。

以前にアップロードしたセグメンテーションルールをダウンロードするには、次の手順に従ってください：

設定ページから、プロジェクト設定セクションまでスクロールし、セグメンテーションをクリックします。

セグメンテーションページが開きます。
右側の設定アイコンをクリックし、カスタマイズ列を選択します:
ファイル名列を有効にします
ファイル名をクリックして、事前に保存されたルールをダウンロードします。

.XLSXファイルの略語を編集します

略語は個別の言語に対して指定でき、その後新しいセグメントは作成されません。

略語を編集するには、次の手順に従います:

ダウンロードした.XLSXファイルをエディタで開きます。
次のフォーマットで内容を変更します:

XLSXファイルには見出しのない2つの列が必要です。
- 列1:指定する略語
- 列2:セグメンテーション動作の仕様
  - ABBR_UPPER_NUM
    
    略語の後に空白があり、その後に数字、記号（数学、通貨記号、デイングバットなど）、または最初の文字が大文字の単語が続く場合、新しいセグメントは作成されません。
  - ABBR_NUM
    
    略語の後に空白があり、その後に数字が続く場合、新しいセグメントは作成されません。
編集した.XLSXファイルを保存します。

.SRXファイルの正規表現を編集します

.SRXファイルの編集は、正規表現の使用に経験のあるユーザーにのみ適した複雑なプロセスです。

SRXファイルで変更できるいくつかのルールがあります:

セグメンテーションなしでXLSXファイルからテキストをインポートします; 1つのセルは1つのセグメントに相当します。
新しい行でテキストをインポートして、1つのセグメントを2つに分割します。
セグメント区切りとしてコロン（または他の任意の文字）を使用します。
セグメント区切りとしてセミコロン（または他の任意の文字）の使用を禁止します。
リストから略語を削除します（テキストはセグメント化されます）。

これらのルールは文字ベース; セグメント区切りとして使用できるのは単一の文字のみです。文字のグループ（例えば：<p>）はセグメント区切りとして使用できません。

SRXファイルを編集するには、次の手順に従います：

Notepad ++のようなテキストエディタでファイルを開きます。
正規表現を使用して編集するか、内部のセグメンテーションを完全に削除します。

例：
- <rule break="no">
  
  セグメントが壊れないルールのリスト。すなわち、略語のリスト
- <rule> <beforebreak>
  
  区切りの前の文字の正規表現（例えば、文の終わりで"。？！："）。例えば、コロンの後にセグメントテキストを望まない場合は、すべての<rule><beforebreak>コードから:を単純に削除します。
- <rule> <afterbreak>
  
  区切りの後の文字の正規表現（例えば、新しい文の始まり；スペースと大文字）。
修正されたSRXファイルを保存します。

新しいセグメンテーションルールをアップロード

修正されたまたは新しいセグメンテーションルールをアップロードするには、次の手順に従います：

設定ページから、プロジェクト設定セクションまでスクロールし、セグメンテーションをクリックします。

セグメンテーションページが開きます。
［新規］をクリックします。

カスタムXLSXまたはSRXセグメンテーションファイルをアップロードページが開きます。
ドロップダウンリストから言語を選択します。
ルールの名前を提供します。
ファイルを選択をクリックします。

ファイル選択ウィンドウが開きます。
アップロードするための修正されたルールファイルを選択します。
カスタムセグメンテーションルールが選択した言語の主要なセグメンテーションルールになる場合は、プライマリにチェックを入れます。
作成をクリックします。

セグメンテーションページが開き、ルールがリストに追加されました。

ジョブインポートでカスタムセグメンテーションルールを使用する

ジョブインポートでカスタムルールを使用するか、ターゲットセグメントの長さを設定するには、次の手順に従います：

ジョブを作成のステップ8で、セグメンテーションとセグメントの長さをファイルインポート設定からクリックします。

セグメンテーションとセグメントの長さオプションのドロップダウンが開きます。
ソースセグメンテーションルールドロップダウンリストから修正されたルールを選択します。
オプションで、プロジェクトの要件に基づいてターゲットセグメントの長さの制限を設定します（例：字幕翻訳）：
- ソースの%での最大ターゲットセグメントの長さを選択し、ソースセグメントに基づいてセグメントの長さを制限するための希望のパーセンテージを入力します。
- 文字数での最大ターゲットセグメントの長さを選択し、文字数でセグメントの長さを制限するための文字数を入力します。
作成をクリックします。

指定されたセグメンテーションルールを使用してジョブが作成され、リストに追加されます。

セグメンテーションの変更例（1セル1セグメント）

SRXファイルからすべてのinnerセグメンテーションルールを削除し、段落、要素、またはセル全体の基本的なセグメンテーションのみを適用します。このセグメンテーションルールは、すべてのファイルタイプ（MS Word、XML、HTML、Excelなど）に適用できます。

例：

	A	B
1	ピーター！待って！
2	こんにちは。
3

デフォルトのセグメンテーションでインポートされたこのXLSXの例には、3つのセグメントがあります：ピーター！、待って！、および>こんにちは。

すべての内部セグメンテーションが削除され、セルに基づく基本的なセグメンテーションのみが残る場合、セグメントは2つだけになります：ピーター！待って！および>こんにちは。

SRXファイルを編集して、すべてのデフォルトのセグメンテーションルール、すなわちと</languagerule>の間のコードを削除します。

例：

カスケーディングにより、この例が機能しない場合があります。その場合、編集したSRXファイルをNotepad++で開き、header要素の2つの属性を見つけて、両方をnoに変更します。