データセットを作成

本コンテンツはPhrase Language AIの機械翻訳により、英語から翻訳されています。

翻訳メモリ選択ガイドライン

Phrase Custom AIは、翻訳メモリ（TM）を活用して、特定の用語やスタイルに準拠したカスタム機械翻訳（MT）モデルを作成します。これにより、汎用機械翻訳と比較して、これらのコンテンツタイプにおける翻訳品質が向上し（結果としてポストエディット時間が短縮され）ます。

カスタマイズプロセスの有効性に影響を与える最も重要な要素は、使用される翻訳メモリです。これらは、この目的のためにどのデータを使用するかを決定するのに役立つ一般的なガイドラインです。

単一ドメイン:

データセットが単一のスタイルと用語をカバーするコンテンツに焦点を当てているのが最適です。データセットに複数のドメインが混在している場合（例：Webサイトの法的条項と製品説明の両方）、モデルは目的のスタイルが何であるかを学習できない可能性があります。
ユニークなコンテンツタイプ:

カスタムMTエンジンは、インターネットから収集された膨大な公開データで学習された汎用モデルをベースに構築されます。翻訳メモリに、汎用モデルの構築に使用される汎用データと非常によく似たデータが含まれている場合、カスタマイズプロセスから得られるものはほとんどありません。
データ品質:

モデルは、翻訳メモリ内のすべての文ペアが、生成を期待される出力の例であると想定します。翻訳メモリは高品質である必要があり、理想的にはプロの人間による翻訳から作成されたものである必要があります。データクリーニングパイプラインは、データセットの最も有害な部分をフィルタするのに役立ちます。
期待されるボリューム:

ROIの観点からカスタマイズを効果的なものにするには、データセットが、MT品質がより大きな影響を与えるデータの大部分を代表している必要があります。例えば、MT出力の一部を人間がポストエディットする場合、ROIを最大化するには、データがポストエディットされるコンテンツを代表している必要があります。

自動アセットキュレーション用のデータセットを作成するプロセスは少し異なります。

カスタムMTエンジンをトレーニングする目的でデータセットを作成するには、以下の手順に従ってください。

データセットページから、カスタム MT エンジンをトレーニングをクリックします。

データセット詳細ページが開きます。
データセットの名前を入力します。
言語選択では、さまざまなオプションが可能です：
1. 一般的な言語データセットを作成するには、原文と言語およびロケール選択で同じ原文と言語および訳文と言語を選択します。
2. ロケール固有のデータセットを作成するには、最初のドロップダウン一覧から原文と言語および訳文と言語を選択し、2 番目のドロップダウン一覧から原文ロケールおよび訳文ロケールを指定します。
  
  より多くのデータソースを活用するために、複数の訳文ロケール（同じ言語の異なるバリエーションなど）を追加することもできます。
3. 複数の原文ロケールおよび訳文ロケールを持つデータセットを作成するには、最初のドロップダウン一覧から原文と言語および訳文と言語を選択し、2 番目のドロップダウン一覧から原文ロケールおよび訳文ロケールを指定して（同じ訳文と言語の異なるバリエーションを追加可能）、+ ロケールペアを追加をクリックします。
入力データウィンドウが表示されます。
翻訳メモリを追加をクリックします。

翻訳メモリを選択ページが開き、検索機能が表示されます。
TM をデータセットに追加するには、アイコンをクリックします。TM が選択済み列に追加されます。

複数の TM を追加でき、最大 200 個の TM、最大 800 万セグメントまで対応可能です。データセットには、理想的には少なくとも 10,000 セグメントを含める必要があります。

TM 名をクリックすると、翻訳メモリページで選択内容が表示されます。

アイコンをクリックして、選択済み列から TM を削除します。
保存をクリックします。

データセット詳細ページが開きます。
表示された詳細を確認し、正しい場合は続けるをクリックします。

クリーニングフィルターページが開きます。
必要なフィルターを適用し、作成をクリックします。

データセットが作成され、Datasetsページの一覧に追加されます。初期ステータスはCleaning、Created for列のステータスはTraining MTとなります。