翻訳メモリのキュレーションは長年にわたる普遍的な問題であり、手動でのクリーンアップは手間のかかるプロセスです。クリーンな翻訳メモリは、言語学者にとってより良い参照を提供し、特にPhrase NextMTに関連する高品質な機械翻訳を実現します。これは、翻訳メモリや用語集などの言語資産を活用するための高度な機能を持っています。
キュレーションされたTMをTMSで使用するためのデータセットを作成するには、次の手順に従ってください:
-
データセットページで、翻訳メモリをクリーンアップするをクリックします。
ページが開きます。
-
データセットの名前を提供してください。
-
言語セレクターはさまざまなオプションを提供します:
-
一般的な言語データセットを作成するには、ソースと言語のセレクターで同じソース言語とターゲット言語を選択します。
-
ロケール特有のデータセットを作成するには、最初のドロップダウンリストからソース言語とターゲット言語を選択し、次に2番目のドロップダウンリストからソースロケールとターゲットロケールを指定します。
より多くのデータソースを活用するために、複数のターゲットロケール(同じ言語の異なるバリアント)を追加することもできます。
-
複数のソースロケールとターゲットロケールを持つデータセットを作成するには、最初のドロップダウンリストからソース言語とターゲット言語を選択し、2番目のドロップダウンリストからソースロケールとターゲットロケールを指定します(同じターゲット言語の異なるバリアントを追加できます)そして、+ さらにロケールペアを追加をクリックします。
ウィンドウが表示されます。
-
-
翻訳メモリを追加をクリックします。
ページが検索機能
と共に開きます。
-
データセットにTMを追加するには、
アイコンをクリックします。TMは列に追加されます。
複数のTMを最大200のTMと最大800万セグメントまで追加できます。データセットには理想的には少なくとも10,000セグメントを含めるべきです。
TMの名前をクリックすると、翻訳メモリページが表示されます。
アイコンをクリックして、列からTMを削除します。
-
保存をクリックします。
ページが開きます。
-
提示された詳細を確認し、正しければ続けるをクリックします。
ページが開きます。
-
必要なフィルタを適用し、作成をクリックします。
データセットが作成され、ページの一覧に追加され、初期ステータスは、のステータスが列に表示されます。
フレーズカスタムAIは、AI駆動およびルールベースのクリーニングフィルタを使用して翻訳メモリをキュレーションすることを可能にします。新しいユーザーに適したデフォルト設定が提供されます。
このプロセスは、元のTMセグメントメタデータとTMタグを保持し、ユーザーがクリーンなTMをTMSで使用する際にTMの活用を維持できるようにします。
利用可能なフィルタのセットには、ルールベースのフィルタとMLベースのフィルタが含まれます:
-
ルールベース
人間が容易に理解できる明確に定義されたルールで動作するフィルタです。このフィルタカテゴリには、、、、、、、が含まれます。
-
MLベース
固定されたルールセットに従うのではなく、テキスト自体の内容を分析して決定を下すフィルタです。このフィルタカテゴリには、、およびが含まれます。
日付範囲
設定された日付の外側のセグメントを除外します。セグメントの最終更新日と開始日が含まれています。
ソースとターゲットが不整合です。
このフィルタは、セグメントが意味と意味的類似性の観点でどれだけ一致しているかを決定し、最も評価の低いものを除去します。文ペアの整列は、LASERメトリックを使用して測定されます。
AIエンジンは、ソースとターゲットのテキストが同じ意味を持つか、どれだけ同じであるかを確認するために使用されます。推奨設定は、最も評価の低い10%のセグメントを破棄し、最も評価の高い90%のセグメントを保持します。
高度な設定では、整列を変更するか、0から1の間の数値を使用して生の類似性スコアに基づくフィルタを設定できます(1は完全な整列を意味します)。生の類似性スコアを使用する場合は注意が必要です。各言語ペアはスコアの分布が異なり、ある言語ペアにとって良いスコアと見なされるものが、別の言語ペアにとっては不満足なスコアである可能性があります。
通常、0.5未満のセグメントはあまり良くなく、1に近いまたは1を超えるセグメントは両言語で同じセグメントです。
例:
最小文字数と文字数
文字数はすべての文字を含みます。これにはすべての文字、空白、句読点、記号が含まれます。トレーニング目的のために、文字を含まないセグメントを破棄することが有用な場合があります。
文字数は、英語のアルファベットのような文字だけでなく、ダイアクリティカルマークや中国語の文字を含むより複雑な文字もカウントします。1つの中国語の文字は1文字としてカウントされますが、複数の文字を表す場合でも同様です。文字ベースの言語のデフォルト値は1ですが、単語ベースの言語のデフォルト値は4(文字)と3(文字)です。最小値は1で、最大値は500です。
データに多くの短いセグメントを保持する場合(例えば、頭字語)、フィルタ値を低く保ってください。
例:
文字列 "こんにちは、世界!1 2 3"は19文字と10文字を含みます。
文ペアの長さ
このフィルタは、ユーザーが設定した閾値を超えるすべてのセグメントを削除します。
合計文字数には、ソース文とターゲット文のすべての文字 - 文字、空白、句読点 - が含まれます。言語の種類を考慮してください(例えば、中国語と英語);ソース言語がCJKのようでなく、ターゲット言語がCJK(またはその逆)の場合、このフィルタは無視されます。
長さの比率
このフィルタは、ソースセグメントとターゲットセグメントを比較したときに、長さが著しく高いセグメントを特定します。いくつかの翻訳は、ソース言語からターゲット言語に翻訳する際に長さが増加または減少します。長すぎるまたは短すぎる翻訳は、低品質のセグメントを示す可能性があります。
ソース言語がCJKのようでなく、ターゲット言語が(またはその逆)の場合、このフィルタは無視されます。CJK
いくつかの言語は他の言語よりも冗長であるため、200%は良いデフォルトです。ターゲット言語がソース言語に似ている場合、またはより多くのデータをフィルタリングする必要がある場合、値を低くすることができます。
例:
一つの言語はCJKであり、比率は1です。これは破棄されません:
{"source": "This is a sentence.", "target": "这是一个句子。", "比率": 1}
ドイツ語の翻訳は英語のソースと同等の長さであり、破棄されません:
{"source": "This is a sentence.", "target": "Dies ist ein Satz.", "ratio": 1.1}
ドイツ語の翻訳は英語のソースよりもはるかに長く、破棄されます:
{"source": "これは文です。", "target": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}
翻訳不要箇所
翻訳不要箇所は、原文と訳文が同じセグメントです。訳文が原文から変更されていない翻訳不要の文ペアはすべて除外されます。
重複
同じ原文を持つセグメントのグループが作成されます。各グループから、最良のセグメントのみが保持されるため、セグメントの原文がユニークであれば、自動的に保持されます。そうでない場合、最も類似度の高いスコアを持つセグメントが保持されます。
ニア・デュプリケート
ニア・デュプリケートをテストする際、原文の(ややクリーンなバージョン)が正規化されます。すべての非文字キャラクター(例: “,?)!-)はスペースに置き換えられ、すべての文字は小文字に変換されます。
正規化された原文を使用して、同じ正規化された原文を持つセグメントのグループが作成されます。各グループから、最良のセグメントのみが保持されるため、セグメントの正規化された原文がユニークであれば、自動的に保持されます。そうでない場合、最も類似度の高いスコアを持つセグメントが保持されます。
言語識別
AIエンジンが文に基づいて原文と訳文の言語を識別するために使用されます。エンジンが(原文/訳文)言語を認識した場合のみ、セグメントは削除されます(例として、短い文はエンジンが言語を特定するには不十分なことが多い)し、言語が期待されるものと異なる場合です。
QPS
QPSフィルタは、翻訳メモリ内の最低品質の文ペアを削除することを可能にし、結果として得られるセグメントが最高品質であることを保証します。
QPSフィルタは、2つの方法で設定できます:
-
最低QPSスコアを持つ文ペアの指定された割合を削除します。推奨は10%です。
-
スコアの閾値を選択します。高度な設定を使用して、調整可能なQPS閾値を下回る文ペアを排除します。推奨される開始点は50です。
これらの2つのオプションは、ユーザーの品質目標に合わせた自動翻訳メモリのキュレーションを提供します。
翻訳メモリのクリーンアッププロセスは数時間かかる場合があり、キュレーションされたTMを使用する前に完了する必要があります。
TMSでキュレーションされたTMを使用するには、次の手順に従ってください:
これにより、数分で完了するデータセットのエクスポートプロセスが開始されます。結果として得られるキュレーションされたTMは、.TMX形式でTMSに新しいキュレーションされたTMとして最大1Gbのサイズでアップロードできます。
同じTMに対して2つ以上のクリーンアッププロセスが実行された場合、タブで異なるバージョンにアクセスできます。