自動評価メトリクスは、機械翻訳システムによって生成された翻訳の品質を評価する上で重要な役割を果たします。人間の評価は主観的で時間がかかる可能性があるのに対し、自動メトリクスはMTシステムのパフォーマンスを評価するための迅速で客観的かつ再現可能な方法を提供します。
Phrase Custom AIは、機械翻訳の品質を評価するために、BLEU、TER、chrf3、COMETなどのいくつかの確立された自動メトリクスを組み込んでいます。
以下の2つの条件が満たされる場合、カスタマイズされたシステムを本番環境に展開することが推奨されます:
-
BLEU で少なくとも5ポイント(絶対値、例:40対35)の改善、または chrf で少なくとも4ポイントの改善。
-
COMETスコアの有意な減少はありません。
ほとんどの場合、この程度の改善は人間の翻訳者にとって容易に認識でき、ポストエディットの時間を短縮します。
推奨アプローチ
一般的に、メトリクスの絶対値は言語ペア、ドメイン、その他の要因によって異なります。カスタマイズプロセスがどれほど成功したかを評価するには、一般的なシステムとカスタマイズされたシステムのスコアの違いを調べます。
BLEU、chrf、およびTERはすべて、MT出力と参考翻訳との文字列の重複を測定します。定義上、これらのスコアの有意な改善は、翻訳者にとってのポストエディットの労力が少なくなることを意味します。
COMETは、一般的な意味で翻訳の品質を測定します。COMETは、カスタマイズ後に必ずしも増加するわけではありません(カスタマイズされたシステムは同様の品質の翻訳を出力する可能性があり、違いは翻訳が顧客のスタイル、トーン、用語などに合致するかどうかです)。ただし、COMETの有意な減少は、カスタマイズされたシステムに問題があることを示す可能性があります。
利用可能なメトリクス
Phrase Custom AIは、機械翻訳の品質を評価するために、BLEU、TER、chrf3、およびCOMETなどのいくつかの確立された自動メトリクスを組み込んでいます。これらのメトリクスはそれぞれ、翻訳の異なる側面に対応した翻訳品質を評価するための独自のアプローチを提供します。
COMET(翻訳評価のためのクロスリンガル最適化メトリック)
-
概要
COMETは、翻訳を評価するために機械学習モデルを使用する最近の指標です。従来の指標とは異なり、表面的なテキスト比較だけに依存しません。
-
動作メカニズム
COMETは、大規模な人間の判断データセットで訓練されたニューラルネットワークモデルを使用します。流暢さ、適切さ、意味の保持など、翻訳品質のさまざまな側面を考慮して翻訳を評価します。
-
使用例
COMETは、翻訳品質のより深い理解が必要なシナリオで効果的です。文脈的および意味的な正確性が文字通りの単語の一致よりも重要な翻訳の評価に特に役立ちます。
BLEU(バイリンガル評価代替)
-
概要
BLEUは、最も初期の広く使用されている指標の1つであり、高品質の参照翻訳と比較することによって機械翻訳されたテキストの品質を評価します。BLEUは、機械生成されたテキストと参照テキスト間のフレーズの対応を測定し、単語の一致の精度に焦点を当てます。
-
動作メカニズム
BLEUは、さまざまなn-gramの長さ(通常は1から4単語)に対するn-gram精度を計算し、これらのスコアを幾何平均を使用して組み合わせます。過度に短い翻訳の問題に対処するために、短縮ペナルティも組み込まれています。
-
使用例
BLEUは、フレーズの正確な一致と単語の順序が重要な翻訳の評価に特に効果的です。ただし、正確な一致に依存することは、より流暢または慣用的な翻訳の品質を捉える上での制限となる可能性があります。
TER(翻訳編集率)
-
概要
TERは、機械翻訳されたテキストを参照翻訳に変更するために必要な編集の数を測定する指標です。編集距離の概念に基づいており、挿入、削除、置換などの操作を含みます。このリストの他の指標とは異なり、低いTERスコアはより良い翻訳を示します。
-
動作メカニズム
TERは、機械翻訳を参考翻訳の1つに変換するために必要な最小限の編集数を計算します。スコアは、その後、参考翻訳の総単語数で正規化されます。
-
使用例
TERは、ポストエディット作業の量に焦点を当てた翻訳の評価に役立ちます。特に、人間によってポストエディットされる翻訳のシナリオに関連しています。
chrf3(文字n-gram Fスコア)
-
概要
chrf3、または文字n-gram Fスコアは、文字レベルのn-gramに基づいて翻訳を評価する指標です。それは、精度と再現率の両方を考慮し、両者のバランスを提供します。
-
動作メカニズム
chrf3は、機械翻訳と参考テキストの間の文字n-gramの重複に基づいて、精度と再現率の調和平均であるFスコアを計算します。
-
使用例
chrf3は、単語のセグメンテーションが難しい言語や形態的に豊かな言語にとって有利です。また、BLEUよりも単語の順序に対して敏感ではないため、異なるが許容される表現での翻訳評価においてより柔軟です。
スコア範囲
指標の絶対値は、言語ペア、ドメイン、その他の要因によって大きく異なります。したがって、スコア値を解釈するための一般的なガイドラインを確立することは難しく、ユーザーは主に一般的なシステムとカスタマイズされたシステム(同一のデータセットで評価された)との違いに基づいて決定すべきです。
この表は、個々の指標の値を解釈するための有用な出発点と見なすことができます:
-
低品質のMT閾値を下回るスコアは、深刻な問題を示す可能性があり、そのようなシステムは通常、さらなる分析なしに展開すべきではありません。
-
高品質のMTの閾値を超えるスコアは、流暢で適切な翻訳を生成する非常に良好なパフォーマンスのシステムを示すことが一般的です。
|
指標 |
範囲 |
低品質のMT閾値 |
高品質のMT閾値 |
|---|---|---|---|
|
コメット |
通常は0から1 |
< 0.3 |
> 0.8 |
|
BLEU |
0から100 |
< 15 |
> 50 |
|
TER |
0から100、低い方が良い |
> 70 |
< 30 |
|
chrf3 |
0から100 |
< 20 |
> 60 |