Custom AI

フィルタークリーニング

本コンテンツはPhrase Language AIの機械翻訳により、英語から翻訳されています。

Phrase Custom AIは、AI駆動のルールベースのクリーニングフィルターにより、翻訳メモリをデータセットに適応させることができます。新しいユーザーに適したデフォルト設定が用意されています。

すべてのフィルターは、セグメントのクリーニングされたバージョンで評価されます。例えば、複数のスペースは1つに縮小され、Phraseタグは削除されます。

日付範囲

終了日と開始日の両方が、セグメントの最終更新日に含まれます。

ソースとターゲットのズレ

このフィルターにより、ユーザーはセグメントが意味と意味的類似性の点でどの程度一致しているかを確認し、最も評価が低いセグメントを除外することができます。文のペアのアラインメントは、LASER メトリックを使用して測定されます。

原文と訳文の意味がどの程度一致しているかをAIエンジンでチェックします。推奨の設定では、90%の最良のセグメントを維持しながら、10%の最悪のセグメントを破棄します。

詳細設定では、アラインメントを変更することができます。また、0から1までの数字(1は完全アラインメントを意味します)を使用して、生の類似性スコアに基づいてフィルターすることもできます。言語ペアごとにスコアの分布が異なるため、生の類似性スコアを使用する場合、注意が必要です。ある言語ペアで良いスコアと見なされたものが、別の言語ペアでは不十分なスコアになる可能性があります。

最小文字数

文字数にはすべての文字が含まれます。これには、すべての文字、空白、句読点や記号が含まれます。

文字カウントでは、英語アルファベットなどの文字のみがカウントされますが、発音区別符号付きの複雑な文字や中国語の文字もカウントされます。漢字1字は、複数の文字を表す場合でも、1文字としてカウントされます。

文のペアの長さ

総文字数には、原文と訳文のすべての文字(文字、空白文字、句読点など)が含まれます。必ず言語の種類(中国語と英語など)を考慮してください。原文言語が CJK 形式でなく、訳文言語が CJK の場合(またはその逆)、このフィルタは無視されます。

長さの比率

原文セグメントと訳文セグメントを比較して、長さが著しく長いセグメントを識別します。原文言語から訳文言語へ翻訳する際、翻訳の長さが長くなったり短くなったりするものがあります。翻訳が長すぎたり短すぎたりすると、訓練データの質が低い可能性があります。

原文言語がCJKのようなアルファベットではなく、訳文言語がCJKの場合(またはその逆)、このフィルターは無視されます。

翻訳不要箇所

原文から変更されていない翻訳不要箇所のペアをすべて除外します。

重複

同じ原文を持つセグメントのグループが作成されます。各グループから、最適なセグメントのみが保持され、セグメントの原文が一意の場合は自動的に保持されます。それ以外の場合は、最も類似度の高いセグメントが保持されます。

ほぼ重複

ほぼ重複しているかどうかをテストする場合、原文の(少しクリーンな)バージョンは正規化されます。文字以外のすべての文字(例:“,?"!-)はスペースに置き換えられ、すべての文字は小文字で表示されます。

正規化された原文を使って、同じ正規化された原文を持つセグメントのグループが作成されます。各グループから、最良のセグメントのみが保持され、セグメントの正規化された原文は一意となり、自動的に保持されます。それ以外の場合は、最も類似度の高いセグメントが保持されます。

言語識別

AIエンジンを使って、文章から原文言語と訳文言語を識別します。セグメントが削除されるのは、エンジンが(原文/訳文)言語を認識した場合(たとえば、短い文ではエンジンが言語を判別できないことがよくあります)、および言語が想定外である場合です。

この記事は役に立ちましたか?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.