自动评估指标在评估机器翻译系统生成的翻译质量方面发挥着至关重要的作用。与可能主观且耗时的人类评估不同,自动化指标提供了一种快速、客观且可重复的方法来衡量机器翻译系统的性能。
Phrase Custom AI结合了几种成熟的自动化指标来评估机器翻译质量:BLEU、TER、chrf3和COMET。
建议在满足以下两个条件时将定制系统部署到生产环境中:
-
BLEU 至少提高5分(绝对值,例如40对35),或chrf 至少提高4分。
-
COMET分数没有显著下降。
在大多数情况下,这种幅度的改善对于人类翻译者来说是显而易见的,并且会导致译后编辑时间的减少。
推荐的方法
一般来说,指标的绝对值因语言对、领域和其他因素而异。要评估定制过程的成功程度,请检查通用系统和定制系统分数之间的差异。
BLEU、chrf和TER都衡量机器翻译输出与参考翻译之间的字符串重叠。根据定义,这些分数的显著改善意味着翻译者的译后编辑工作量减少。
COMET从总体上衡量翻译质量。COMET在定制后不一定会增加(定制系统可能输出相似质量的翻译,区别在于翻译是否符合客户的风格、语气、术语等)。然而,COMET的显著下降可能表明定制系统存在问题。
可用指标
Phrase Custom AI结合了几种成熟的自动化指标来评估机器翻译质量:BLEU、TER、chrf3和COMET。这些指标各自提供了评估翻译质量的独特方法,针对翻译的不同方面。
COMET(跨语言优化翻译评估指标)
-
概述
COMET 是一种较新的指标,采用机器学习模型来评估翻译。与传统指标不同,它并不单纯依赖表面文本比较。
-
工作机制
COMET 使用在大量人类判断数据集上训练的神经网络模型。它通过考虑翻译质量的各个方面来评估翻译,包括流畅性、充分性和意义的保留。
-
使用案例
COMET 在需要更深入理解翻译质量的场景中非常有效。它特别适用于评估在上下文和语义准确性比逐字逐句对应更重要的翻译。
BLEU(双语评估替代品)
-
概述
BLEU 是最早和最广泛使用的指标之一,通过将机器翻译文本与一个或多个高质量参考翻译进行比较来评估翻译质量。BLEU 测量机器生成文本与参考文本之间短语的对应关系,重点关注词匹配的准确性。
-
工作机制
BLEU 计算不同 n-gram 长度(通常为 1 到 4 个单词)的 n-gram 精度,然后使用几何平均数结合这些分数。它还引入了简洁性惩罚,以解决过短翻译的问题。
-
使用案例
BLEU 在评估短语和词序的精确匹配很重要的翻译时特别有效。然而,它对精确匹配的依赖可能限制了捕捉更流畅或习惯用语翻译质量的能力。
TER(翻译编辑率)
-
概述
TER 是一种指标,测量将机器翻译文本更改为参考翻译所需的编辑次数。它基于编辑距离概念,包括插入、删除和替换等操作。与此列表中的其他指标不同,较低的 TER 分数表示更好的翻译。
-
工作机制
TER计算将机器翻译转换为参考翻译所需的最小编辑次数。然后通过参考翻译中的总词数对得分进行归一化。
-
使用案例
TER对于评估翻译的有效性很有用,特别是在关注所需的译后编辑工作量时。在翻译将由人工进行译后编辑的场景中,这一点尤其相关。
chrf3(字符n-gram F-score)
-
概述
chrf3或字符n-gram F-score是一种基于字符级n-gram评估翻译的指标。它同时考虑了精确度和召回率,在两者之间提供了平衡。
-
工作机制
chrf3计算F-score,这是精确度和召回率的调和平均值,基于机器翻译与参考文本之间字符n-gram的重叠。
-
使用案例
chrf3对于单词分割困难或形态丰富的语言具有优势。它对词序的敏感性也低于BLEU,使其在评估具有不同但可接受的措辞的翻译时更加灵活。
得分范围
指标的绝对值因语言对、领域和其他因素而显著变化。因此,很难建立通用的指导方针来解释得分值,用户应主要根据通用系统与定制系统(在相同数据集上评估)之间的差异来决定。
该表可以视为解释各个指标值的有用起点:
-
低于低质量机器翻译阈值的得分可能表明存在严重问题,此类系统通常不应在进一步分析之前投入使用。
-
超过高质量机器翻译阈值的得分通常表明系统表现非常好,能够生成流畅且合适的翻译。
|
指标 |
范围 |
低质量机器翻译阈值 |
高质量机器翻译阈值 |
|---|---|---|---|
|
彗星 |
通常为0到1 |
< 0.3 |
> 0.8 |
|
BLEU |
0到100 |
< 15 |
> 50 |
|
TER |
0到100,越低越好 |
> 70 |
< 30 |
|
chrf3 |
0到100 |
< 20 |
> 60 |