MTエンジンのトレーニングにおいて、最も重要な要素は量だけでなく、データの品質です。データのクリーニングは古くからある問題であり、手動クリーニングは手間のかかるプロセスです。クリーンなデータは、訓練の迅速化とモデルの品質向上につながります。
Phrase Custom AIは、AI駆動のルールベースのクリーニングフィルターをヘルプし、翻訳メモリをデータセットに適応させることができます。新しいユーザに適したデフォルト設定が用意されています。
使用できるフィルターのセットには、ルールベースのフィルターとMLベースのフィルターの両方が含まれます。
-
ルールベース
明確に定義されたルールに基づいて動作する、人間に分かりやすいフィルター。このフィルタ カテゴリには、
、 、 、 、翻訳 、 、 などがあります。 -
MLベース
単に固定された規則に従うのではなく、テキスト自体のコンテンツを解析して決定を下すフィルタ。このフィルタカテゴリには、
のミスアライメント、および が含まれます。
すべてのフィルターは、セグメントのクリーニング済バージョンで評価されます。たとえば、複数のスペースは 1 つに削減され、phrase tags は削除されます。
日付範囲
終了日と開始日の両方がセグメントの最終変更日としてアカウントに含まれます。
原文と訳文の不一致
このフィルタを使用すると、ユーザーはセグメントの意味と意味の類似性から一致の度合いを判断し、評価が最も低いセグメントを除外できます。文のペアのアライメントは、LASER メトリックを使用して測定されます。
AIエンジンを使用して、原文と訳文の意味が同じであるか、またはどの程度同じであるかをチェックします。推奨される設定では、90%の最良のセグメントを維持しながら、10%の最悪のセグメントを破棄します。
詳細設定では、アラインメントの変更が可能です。また、未加工の類似度スコアに基づくフィルタにすることもできます。スコアは 0 ~ 1 (1 はアライン完了を意味します)です。生の類似スコアを使用する場合、言語ペアごとにスコアの分布が異なるため注意が必要です。ある言語ペアで良いスコアと見なされているものが、別の言語ペアでは不十分なスコアになる可能性があります。
通常、0.5未満のセグメントはあまり良いとは言えません。1に近いセグメント、または1を超えるセグメントは、両方の言語で同じセグメントです。
例:
{"source":"Super.", "target":"Super.", "similarity":1.05}
{"source":"Hello", "target": "http://wwww.sdsadsa.com", "similarity":0.3}
最小文字および文字カウント
文字数にはすべての文字が含まれます。これには、すべての文字、空白、句読点および記号が含まれます。訓練用に、文字を含まないセグメントを破棄できる場合があります。
文字カウントでは、英語アルファベットなどの文字のみがカウントされますが、発音区別記号(ダイアグリット)や中国語の文字など、より複雑な文字もカウントされます。漢字 1 字は、複数の文字を表す場合でも 1 文字としてカウントされます。文字ベースの言語のデフォルト値は 1 ですが、単語ベースの言語のデフォルト値は 4 (文字) と 3 (文字) です。最小値は 1、最大値は 500 です。
データに短いセグメント(頭字語など)を多数保持する場合は、フィルタ値を低くします。
例:
文のペアの長さ
このフィルタは、ユーザーが設定したしきい値を超えるすべてのセグメントを削除します。このフィルタを使用する理由は、ほとんどのNMTシステムが、実際には内部のしきい値を超えるセグメントに対してトレーニングを行わないためです。
たとえば、NextMTの内部しきい値は200トークンで、約100~1,000ワードになります。より短い文でカスタムエンジンを訓練するには、この値をデフォルトよりも低く設定します。
総文字数には、原文と訳文の両方の文字(文字、空白、句読点)が含まれます。言語の種類(中国語と英語など)を考慮します。原文言語が CJK らしくなく、訳文言語が CJK の場合(またはその逆)、このフィルタは無視されます。
長さの比率
このフィルタは、原文セグメントと訳文セグメントを比較したときに、長さが著しく長いセグメントを特定します。原文言語から訳文言語への翻訳では、長さが長くなったり短くなったりするものがあります。翻訳が長すぎたり短すぎたりする場合は、訓練データの質が低い可能性があります。
原文言語が CJK 型ではなく、訳文言語が CJK 型の場合(またはその逆)、このフィルタは無視されます。CJK
一部の言語は他言語よりもVerboseであるため、200%がデフォルトに適しています。訳文言語が原文言語に類似する場合、またはより多くのデータをフィルタで除外する必要がある場合、値を下げることができます。
例:
1 言語は CJK で、比率は 1 です。破棄されません。
{"source":"This is a sentence.", "target": "这是一个句子。","比率":1}
ドイツ語の翻訳は英語の原文と同等の長さであり、破棄されません。
{"source":"This is a sentence.", "target":"Dies ist ein Satz.","ratio":1.1}
ドイツ語の翻訳は英語の原文よりかなり長いため、破棄されます。
{"source":"This is a sentence.", "target":"Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio":3.1}
翻訳不要箇所
翻訳不要箇所は、原文と訳文セグメントが同じセグメントです。原文から変更のない訳文から、翻訳不要箇所の文のペアをすべて除外します。
重複
同じ原文を持つセグメントのグループが作成されます。各グループから、最適なセグメントのみが保持されるため、セグメントの原文が一意の場合は自動的に保持されます。それ以外の場合、最も類似度スコアの高いセグメントが保持されます。
ほぼ重複
ほぼ重複をテストする場合、原文の(より簡潔なバージョンの)は正規化されます。文字以外の文字(例:「,?」!-
)はすべてスペースに置き換えられ、小文字で表示されます。
正規化された原文を使用して、同じ正規化された原文を持つセグメントのグループが作成されます。各グループから、最適なセグメントのみが保持されるため、セグメントの正規化された原文は一意になり、自動的に保持されます。それ以外の場合、最も類似度スコアの高いセグメントが保持されます。
言語識別
AIエンジンを使って、文章から原文言語と訳文言語を識別します。セグメントが削除されるのは、エンジンが (原文/訳文) 言語を認識し (たとえば、短い文ではエンジンが言語を判断できないことが多い)、言語が予期したのと異なっている場合だけです。
QPS
QPS(品質評価スコア)フィルタを使用すると、データセット内の品質が低い AI 文を削除できるため、結果として得られる AI モデルは、可能な限り最高の品質のデータでトレーニングされます。一般に、訓練データの質が高ければ高いほど、カスタマイズされたモデルは良いパフォーマンスを発揮します。
QPS(品質評価スコア)フィルタは、次の 2 つの方法で設定できます。
-
QPS(品質評価スコア)(品質評価)が低い文のペアから、特定の割合で削除する。推奨値は10%です。
-
スコアしきい値の選択。詳細設定を使用して、調整可能な QPS(品質評価スコア)しきい値を下回った文のペアを排除します。推奨開始点は50です。
この2つのオプションは、ユーザーの品質目標に合わせて自動的にデータセットをキュレーションします。