策划翻译记忆库是一个长期存在的问题,手动清理是一个繁琐的过程。清理翻译记忆库可以为语言学家提供更好的参考,并提高机器翻译的质量,这对于短语 NextMT尤其相关,因为它具有利用语言资产(如翻译记忆库和术语表)的先进能力。
要创建一个用于在TMS中使用策划TM的数据集,请按照以下步骤操作:
-
在数据集页面上,点击清理翻译记忆库。
页面打开。
-
为数据集提供一个名称。
-
语言选择器提供多种选项:
-
要创建一个通用语言数据集,请在源语言和目标语言选择器中选择相同的源语言和目标语言。
-
要创建一个特定区域的数据集,请从第一个下拉列表中选择源语言和目标语言,然后从第二个下拉列表中指定源语言和目标语言的区域。
还可以添加多个目标区域(即同一语言的不同变体)以利用更多的数据源。
-
要创建一个具有多个源和目标区域的数据集,请从第一个下拉列表中选择源语言和目标语言,从第二个下拉列表中指定源语言和目标语言的区域(可以添加同一目标语言的不同变体),然后点击+ 添加更多区域对。
窗口出现。
-
-
点击添加翻译记忆库。
页面打开,并带有搜索功能
。
-
要将TM添加到数据集中,请点击
图标。TM已添加到列。
可以添加多个TM,最多可达200个TM和800万个段落。理想情况下,数据集应包含至少10,000个段落。
点击TM名称将显示在翻译记忆库页面上的选择。
点击
图标以从列中移除TM。
-
点击保存。
页面打开。
-
查看所呈现的详细信息,如果正确,请点击继续。
页面打开。
-
应用所需的筛选器并点击创建。
数据集已创建并添加到页面上的列表中,初始状态为,在列中的状态为。
短语自定义AI允许借助AI驱动和基于规则的清理筛选器来策划翻译记忆库。提供默认设置,可能适合新用户。
此过程保留原始TM句段元数据和TM标记,使用户在使用清理后的TM时能够保持TM的利用率。
可用的筛选器集包括基于规则的筛选器和基于机器学习的筛选器:
-
基于规则的
以明确的规则操作的筛选器,这些规则易于人类理解。此筛选器类别包括、、、、、、。
-
基于机器学习的
分析文本内容本身以做出决策的筛选器,而不是简单地遵循固定的规则集。此筛选器类别包括和。
日期范围
排除设定日期之外的句段。段落的开始和结束日期以及最后修改日期都包括在内。
源文和译文不对齐
此筛选器决定段落在意义和语义相似性方面的匹配程度,去除评分最低的段落。句子对齐使用LASER指标进行测量。
使用AI引擎检查源文和译文是否表达相同的意思或相似程度。推荐的设置丢弃10%最差的段落,同时保留90%最好的段落。
高级设置允许更改对齐方式,或可以基于原始相似性分数进行筛选,使用0到1之间的数字(1表示完全对齐)。如果使用原始相似性分数,请谨慎,因为每对语言的分数分布不同,对于一对语言来说好的分数可能对另一对语言来说是不满意的分数。
通常,低于0.5的段落不是很好,而接近或超过1的段落在两种语言中是相同的段落。
示例:
最小字符和字母计数
字符计数包括所有字符。这包括所有字母、空格、标点符号和符号。出于训练目的,丢弃不包含任何字母的段落可能是有用的。
字母计数仅计算字母,例如英语字母,但也包括带有变音符号的复杂字符或汉字。一个汉字算作一个字母,即使它表示多个字符。对于基于字符的语言,默认值为1,但对于基于单词的语言,默认值为4(字符)和3(字母)。最小值为1,最大值为500。
如果在数据中保留大量短句段(例如缩略语),请将筛选值保持在较低水平。
示例:
字符串"你好,世界!1 2 3"包含19个字符和10个字母。
句子对长度
此筛选器会移除所有超过用户设定阈值的句段。
总字符数包括源句和目标句中的所有字符 - 字母、空格和标点符号。考虑语言类型(例如中文和英文);如果源语言不是CJK类而目标语言是CJK(或反之),则此筛选器将被忽略。
长度比
此筛选器识别在比较源句段和目标句段时长度显著更高的句段。某些翻译在从源语言翻译到目标语言时长度会增加或减少。过长或过短的翻译可能表明句段质量低。
如果源语言不是CJK类而目标语言是(或反之),则此筛选器将被忽略。CJK
某些语言比其他语言更冗长,因此200%是一个不错的默认值。如果目标语言与源语言相似,或者需要过滤更多数据,则该值可以更低。
示例:
一种语言是CJK - 比例为1。它不会被丢弃:
{"source": "这是一个句子。", "target": "这是一个句子。"", "ratio": 1}
德语翻译与英语源句长度相当,不会被丢弃:
{"source": "这是一个句子。", "target": "Dies ist ein Satz.", "ratio": 1.1}
德语翻译比英语源句长得多,将被丢弃:
{"source": "这是一句句子。", "target": "这是一句带有额外不必要填充的句子。", "ratio": 3.1}
非译元素
非译元素是源句和目标句相同的句段。排除所有目标文本与源文本保持不变的非译句对。
重复项
创建具有相同源句的句段组。从每组中,仅保留最佳句段,因此如果句段的源句是唯一的,它会自动保留。否则,保留相似度得分最高的句段。
近重复项
在测试近重复项时,源句的(稍微清晰的版本)被标准化;所有非字母字符(一些示例:“,?)!-)被替换为空格,所有字母被转换为小写。
使用标准化的源句,创建具有相同标准化源句的句段组。从每组中,仅保留最佳句段,因此句段的标准化源句是唯一的,并会自动保留。否则,保留相似度得分最高的句段。
语言识别
使用AI引擎根据句子识别源语言和目标语言。仅当引擎识别出(源/目标)语言时,句段才会被移除(例如,较短的句子通常不足以让引擎确定语言),并且语言与预期不同。
QPS
QPS筛选器使得可以移除翻译记忆库中最低质量的句对,以确保结果句段的最高质量。
QPS筛选器可以通过两种方式进行配置:
-
移除具有最低QPS得分的句对的指定百分比。推荐为10%。
-
选择一个得分阈值。使用高级设置来消除低于可调QPS阈值的句子对。推荐的起始点是50。
这两个选项提供自动化的翻译记忆库管理,以符合用户的质量目标。
翻译记忆库清理过程可能需要几个小时,必须在整理过的翻译记忆库可以使用之前完成。
要在TMS中使用整理过的翻译记忆库,请按照以下步骤操作:
这将触发一个数据集导出过程,只需几分钟。生成的整理过的翻译记忆库可以以.TMX格式上传到TMS,作为一个新的整理过的翻译记忆库,大小可达1 Gb。
如果对同一个翻译记忆库进行了两个或多个清理过程,可以在选项卡中访问不同版本。