使用机器翻译指标

自动化评估指标在评估机器翻译系统生成的翻译质量方面起着至关重要的作用。与可能具有主观性且耗时的人工评估不同，自动化指标提供了一种快速、客观且可重复的方法来衡量机器翻译系统的性能。

Phrase Custom AI 整合了多种成熟的自动化指标来评估机器翻译质量：BLEU、TER、chrf3 和 COMET。

如果满足以下两个条件，建议将自定义系统部署到生产环境：

在大多数情况下，这种幅度的改进对于人工译员来说很容易察觉，并能缩短译后编辑时间。

Phrase Custom AI 整合了多种成熟的自动化指标来评估机器翻译质量：BLEU、TER、chrf3 和 COMET。这些指标中的每一个都提供了一种评估翻译质量的独特方法，以满足翻译的不同方面。

Overview

COMET 是一种较新的指标，它使用机器学习模型来评估翻译。与传统指标不同，它不仅仅依赖于表层文本比较。
Working Mechanism

COMET 使用在大量人类判断数据集上训练的神经网络模型。它通过考虑翻译质量的各个方面（包括流畅度、充分性和意义的保留）来评估翻译。
使用场景示例

COMET 在需要更深入了解翻译质量的场景中非常有效。它特别适用于评估那些上下文和语义准确性比逐字对应更重要的翻译。

Overview

BLEU 是最早且使用最广泛的指标之一，它通过将机器翻译的文本与一个或多个高质量参考翻译进行比较来评估其质量。BLEU 衡量机器生成的文本与参考文本之间的短语对应关系，重点关注单词匹配的精确度。
Working Mechanism

BLEU 计算各种 n-gram 长度（通常为 1 到 4 个单词）的 n-gram 精确度，然后使用几何平均值合并这些分数。它还包含一个简洁性惩罚，以解决翻译过短的问题。
使用场景示例

BLEU 在评估短语和单词顺序的精确匹配非常重要的翻译时特别有效。然而，它对精确匹配的依赖可能会限制其捕捉更流畅或更地道的翻译质量的能力。

Overview

TER 是一种指标，用于衡量将机器翻译的文本更改为参考翻译所需的编辑次数。它基于编辑距离概念，包括插入、删除和替换等操作。与此列表中的其他指标不同，较低的 TER 分数表示更好的翻译。
Working Mechanism

TER 计算将机器翻译转换为其中一个参考翻译所需的最小编辑次数。然后，该分数由参考翻译中的单词总数进行归一化处理。
使用场景示例

TER 对于评估侧重于所需译后编辑工作量的翻译非常有用。它在翻译将由人工进行译后编辑的场景中尤为相关。

Overview

chrf3 或字符 n-gram 分数，是一种基于字符级 n-gram 评估翻译的指标。它同时考虑了准确率和召回率，在这两者之间提供了平衡。
Working Mechanism

chrf3 基于机器翻译和参考文本之间字符 n-gram 的重叠，计算准确率和召回率的调和平均值，即分数。
使用场景示例

chrf3 对于断句具有挑战性的语言或形态丰富的语言具有优势。它对词序的敏感度也低于 BLEU，这使其在评估具有不同但可接受措辞的翻译时更加灵活。

指标的绝对值会根据语言对、领域和其他因素而有显著差异。因此，很难为解释分数数值建立通用的指导原则，用户应主要根据通用系统与定制系统（在相同数据集上评估）之间的差异来做出决定。

该表格可被视为解释各个指标数值的一个有用的起点：

指标	范围	低质量机器翻译阈值	高质量机器翻译阈值
COMET	通常为 0 至 1	< 0.3	> 0.8
BLEU	0 至 100	< 15	> 50
TER	0 到 100，越低越好	> 70	< 30
chrf3	0 至 100	< 20	> 60