翻訳メモリ選択のガイドライン
Phrase Custom AIは、翻訳メモリ(TMS)を活用して、特定の用語やスタイルに準拠したカスタム機械翻訳(MT)モデルを作成します。これにより、一般的な機械翻訳と比較して、これらのコンテンツ タイプの翻訳品質を向上させる(つまりポストエディット時間を短縮する)ことができます。
カスタマイズプロセスの効果に影響を与える可能性がある最も重要な要素は、翻訳メモリの使用です。次に、この目的で使用するデータを決定するのにヘルプ一般的なガイドラインを示します。
-
単一ドメイン:
データセットが単一のスタイルと用語をカバーするコンテンツに焦点を当てている場合に最適です。データセットに複数のドメイン(例えば、ウェブサイトの法律用語と製品説明の両方)が含まれている場合、モデルは望ましいスタイルを学習できない可能性があります。
-
一意コンテンツ タイプ:
カスタムMTモデルは、インターネットから収集された膨大な公開データに基づいてトレーニングされた汎用モデルを基に構築されています。翻訳メモリに、汎用モデルの構築に使用される汎用データに非常に近いデータが含まれている場合、カスタマイズプロセスから得られるものは多くありません。
-
データ品質:
モデルは、翻訳メモリ内のすべての文のペアが、期待される出力の例であると仮定します。翻訳メモリは高品質である必要があり、Professionalによる人間翻訳が理想です。データクリーニングパイプラインは、データセットの最も有害な部分をフィルタするのにヘルプます。
-
予想されるボリューム:
カスタマイズがROIの観点からインパクトを与えるには、データセットがMT品質により大きな影響を与えるデータの大部分を表す必要があります。たとえば、MT出力の一部が人間の翻訳者によってポストエディットされる場合、ROIを最大化するには、データはポストエディットされるコンテンツを表す必要があります。
カスタム MT エンジンをトレーニングするためのデータセットを作成する手順は、次のとおりです。
-
[カスタムMTエンジンのトレーニング]をクリックします。
]ページで、[ページが開きます。
-
データセットの名前を入力します。
-
言語セレクターでは、さまざまなオプションを使用できます。
-
一般言語データセットを作成するには、原文言語と訳文言語、およびロケールセレクターで同じ原文言語と訳文言語を選択します。
-
ロケール固有のデータセットを作成するには、最初のドロップダウンリストから原文言語と訳文言語を選択し、2 番目のドロップダウンリストから原文と訳文ロケールを指定します。
より多くのデータソースを活用するために、複数の訳文ロケールを追加することもできます。
-
複数の原文および訳文ロケールを持つデータセットを作成するには、最初のドロップダウンリストから原文言語と訳文言語を選択し、2 番目のドロップダウンリストから原文および訳文ロケールを指定して (複数の訳文ロケールを追加可能)、「+ ロケールペアを追加」をクリックします。
「
ウィンドウが表示されます。 -
-
翻訳メモリ追加をクリックします。
「
」ページが開きます。そこに検索機能のがあります。
-
TM をデータセットに追加するには、
アイコンをクリックします。TM が 済」列に追加されます。
最大200個までTMSを複数追加でき、データセットには10,000個以上のセグメントを含むのが理想です。
TM名をクリックすると、翻訳メモリページに選択内容が表示されます。
TM を、「
済」列から削除するには」アイコンをクリックします。
-
保存をクリックします。
ページが開きます。
-
表示された詳細を確認し、正しければ、続けるをクリックします。
「
」ページが開きます。 -
必要なフィルタを適用して、作成をクリックします。
データセットが作成され、[
]ページの一覧に、初期ステータス ]、[ ]列が ]のステータスで追加されます。
一般的なエラー:
-
400 無効な値
このErrorは、データセットでサポートされていない言語を選択したときに表示される可能性があります。Custom AIはPhrase NextMTに基づいており、Phrase NextMTで利用可能な言語のみをサポートしています。