翻訳メモリ選択ガイドライン
フレーズカスタムAIは、特定の用語とスタイルに従ったカスタム機械翻訳(MT)モデルを作成するために翻訳メモリ(TM)を活用し、これにより一般的な機械翻訳と比較して、これらのコンテンツタイプの翻訳品質が向上し(したがってポストエディット時間が短縮される)ます。
カスタマイズプロセスの効果に影響を与える最も重要な要因は、使用される翻訳メモリです。これは、この目的のために使用するデータを決定するのに役立つ一般的なガイドラインです:
-
単一ドメイン:
データセットは、単一のスタイルと用語をカバーするコンテンツに焦点を当てるのが最良です。データセットに複数のドメイン(例:ウェブサイトの法的用語と製品説明の両方)が含まれている場合、モデルは望ましいスタイルを学習できない可能性があります。
-
ユニークコンテンツタイプ:
カスタムMTモデルは、インターネットから収集された膨大な量の公開データで訓練された一般的なモデルの上に構築されます。翻訳メモリに、一般的なモデルを構築するために使用された一般的なデータに非常に似たデータが含まれている場合、カスタマイズプロセスから得られるものはあまりありません。
-
データ品質:
モデルは、翻訳メモリ内のすべての文ペアが、生成が期待される出力の例であると仮定します。翻訳メモリは良質である必要があり、理想的にはプロの人間翻訳から作成されるべきです。データクリーニングパイプラインは、データセットの最も有害な部分をフィルタリングするのに役立ちます。
-
期待されるボリューム:
カスタマイズがRoIの観点で影響を与えるためには、データセットはMT品質がより影響を与えるデータの大部分を代表する必要があります。例えば、MT出力の一部が人間の翻訳者によってポストエディットされる場合、RoIを最大化するために、データはポストエディットされるコンテンツを代表する必要があります。
自動資産キュレーションのためのデータセットを作成するプロセスは、やや異なります。
カスタムMTエンジンを訓練する目的でデータセットを作成するには、次の手順に従ってください:
-
ページから、カスタムMTエンジンをトレーニングするをクリックします。
ページが開きます。
-
データセットの名前を提供してください。
-
言語セレクターはさまざまなオプションを提供します:
-
一般的な言語データセットを作成するには、ソースと言語およびロケールセレクターで同じソースと言語を選択してください。
-
ロケール特有のデータセットを作成するには、最初のドロップダウンリストからソースと言語を選択し、次に2番目のドロップダウンリストからソースと言語を指定します。
複数のターゲットロケール(つまり、同じ言語の異なるバリアント)を追加して、より多くのデータソースを活用することもできます。
-
複数のソースおよびターゲットロケールを持つデータセットを作成するには、最初のドロップダウンリストからソースと言語を選択し、2番目のドロップダウンリストからソースと言語を指定し(同じターゲット言語の異なるバリアントを追加できます)、+ さらにロケールペアを追加をクリックします。
ウィンドウが表示されます。
-
-
翻訳メモリを追加をクリックします。
ページが検索機能
と共に開きます。
-
データセットにTMを追加するには、
アイコンをクリックします。TMは列に追加されます。
複数のTMを最大200のTMと最大800万セグメントまで追加できます。データセットには理想的には少なくとも10,000セグメントを含めるべきです。
TM名をクリックすると、翻訳メモリページで選択が表示されます。
アイコンをクリックして、列からTMを削除します。
-
保存をクリックします。
ページが開きます。
-
提示された詳細を確認し、正しければ続けるをクリックします。
ページが開きます。
-
必要なフィルターを適用し、作成をクリックしてください。
データセットは作成され、ページの一覧に追加され、初期ステータスはで、列のステータスはです。