训练机器翻译引擎时,最重要的因素不仅是数量,还有数据质量。清理数据是一个长期存在的普遍问题,手动清理是一个艰巨的过程。干净的数据可以加快训练速度和模型质量。
Phrase Custom AI 可在 AI 支持的基于规则的清理过滤器的帮助下将翻译记忆库改编为数据集。提供了可能适合新用户的默认设置。
可用的筛选条件包括基于规则的筛选条件和基于机器翻译的筛选条件:
-
基于规则
筛选条件遵循人类易于理解的明确规则。此筛选类别包括
、 、 、 、 、 、 。 -
基于 ML
分析文本本身内容的筛选条件,而不是简单地遵循一套固定的规则。该筛选类别包括
以及 。
所有筛选条件都会对清理后的句段版本进行评估。例如,多个空格减为一个,并删除 phrase tags。
日期范围
包括结束和开始日期,并账户句段的最后修改日期。
原文/源语和译文不匹配
该筛选允许用户确定句段在含义和语义相似度方面的匹配程度,去除最差的 。句子对对齐使用 LASER 度量。
AI 引擎用于检查原文/源语和译文的意思是否相同,或是否相同。推荐设置丢弃 10% 最差的句段,同时保留 90% 最佳句段。
高级设置允许更改对齐方式,或者可以使用 0 到 1 之间的数字(1 表示完成对齐)根据原始相似度分数进行筛选。谨慎使用原始相似度分数,因为每个语言对的分数分布不同,而一种语言对的分数被认为是好的,而另一种语言对的分数可能是不令人满意的。
通常情况下,低于 0.5 的句段不是很好,接近或超过 1 的句段是两种语言中相同的句段。
示例:
{"source":“超级”,“译文”:“超级”,“相似性”:1.05}
{"source":"Hello", "target": "http://wwww.sdsadsa.com", "similarity":0.3}
最小字符和字母数
字符数包括所有字符。这包括所有字母、空格、标点符号和符号。出于训练目的,丢弃不包含任何字母的句段可能是有益的。
字母计数仅计算英文字母等字母,但也计算带有变音符或汉字的更复杂的字符。一个汉字算作一个字母,即使它代表一个以上的字符。对于基于字符的语言,默认值为 1,但对于基于单词的语言,默认值为 4 (字符) 和 3 (字母)。最小值为 1,最大值为 500。
如果在数据中保留大量短句段(例如缩写),请将筛选选值保持在较低水平。
示例:
句段长度
此筛选删除所有超过用户设置阈值的句段。筛选的原因是,大多数 NMT 系统实际上不会训练超过其内部阈值的句段。
例如,NextMT 的内部阈值为 200 个令牌,大约等于 100 - 1,000 字。要训练自定义引擎处理较短的句子,请将此值设置为低于默认值。
字符包括原文/源语和译文句的所有字符--字母、空格和标点符号。考虑语言类型(例如中文和英文);如果原文/源语语言不是中日韩语,译文语言是中日韩语(或相反),则忽略此筛选。
长度比
该筛选条件可识别在比较原文/源语句段和译文句段时长度明显更长的句段。从原文/源语翻译成译文语言时,有些译文的长度会增加或减少。翻译过长或过短可能表示训练数据质量不高。
如果原文/源语语言不是中日韩语,而译文语言是中日韩语(或相反),此筛选将被忽略。中日韩语
有些语言比其它语言更 Verbose,因此 200% 是一个良好的默认值。如果译文语言与原文/源语语言相似,或者需要筛选更多的数据,则值可以更低。
示例:
一种语言是中日韩语 - 比率为 1。不会被丢弃:
{"source":"这是一个句子"",""译文"":“这是一个句子。","比率":1}
德语译文的长度与英语原文/源语相当,不会被丢弃:
{"source":“这是一个句子。”,“译文”:"Dies ist ein Satz.", "ratio":1.1}
德语译文比英语原文/源语长得多,将被丢弃:
{"source":“这是一个句子。”,“译文”:"Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio":3.1}
非译元素
非译元素是原文/源语和译文句段相同的句段。排除除非译元素外源语文本与原文/源语文本相同的句段。
重复
创建具有相同原文/源语句子的句段组。每组只保留最佳句段,若句段原文/源语句段唯一,则自动保留。否则。保留相似度分数最高的句段。
近似重复句段
在测试近乎重复时,原文/源语句子(略干净一些的版本)被标准化;所有非字母字符(例如:“,?)!-
)被替换为空间,所有字母都呈现小写。
使用归一化原文/源语句子,创建具有相同归一化原文/源语句子的句段组。每组只保留最佳句段,句段的归一化原文/源语句子是唯一的,会自动保留。否则。保留相似度分数最高的句段。
语言识别
AI 引擎用于根据句子识别原文/源语和译文语言。只有当引擎识别了(原文/源语/译文)语言(例如,较短的句子往往不足以让引擎确定语言)并且语言与预期不同时,句段才会被删除。
QPS
通过 QPS(质量评估分数)筛选,可以移除数据集中质量最低的句子 p airs,以确保生成的 AI 模型根据可用的最高质量的数据训练。一般来说,训练数据的质量越高,自定义模型的表现越好。
QPS(质量评估分数)筛选有两种配置方式:
-
删除 QPS(质量评估分数)最低的句子对的指定百分比。建议 10%。
-
选择分数阈值。使用高级设置消除低于可调 QPS(质量评估分数)阈值的句子对。推荐起点是 50。
这两个选项提供了自动数据集整理功能,以符合用户的质量目标。