Custom AI

自动化资产策展

文本由 Phrase Language AI 从英语机器翻译而得。

策划翻译记忆库是一个长期存在的问题,手动清理是一个繁琐的过程。清理翻译记忆库可以为语言学家提供更好的参考,并提高机器翻译的质量,这对于短语 NextMT尤其相关,因为它具有利用语言资产(如翻译记忆库和术语表)的先进能力。

为AAC创建数据集

要创建一个用于在TMS中使用策划TM的数据集,请按照以下步骤操作:

  1. 数据集页面上,点击清理翻译记忆库

    数据集详情页面打开。

  2. 为数据集提供一个名称。

  3. 语言选择器提供多种选项:

    1. 要创建一个通用语言数据集,请在源语言和目标语言选择器中选择相同的源语言和目标语言。

    2. 要创建一个特定区域的数据集,请从第一个下拉列表中选择源语言和目标语言,然后从第二个下拉列表中指定源语言和目标语言的区域。

      还可以添加多个目标区域(即同一语言的不同变体)以利用更多的数据源。

    3. 要创建一个具有多个源和目标区域的数据集,请从第一个下拉列表中选择源语言和目标语言,从第二个下拉列表中指定源语言和目标语言的区域(可以添加同一目标语言的不同变体),然后点击+ 添加更多区域对

    输入数据窗口出现。

  4. 点击添加翻译记忆库

    选择翻译记忆库页面打开,并带有搜索功能Search

  5. 要将TM添加到数据集中,请点击Add TM图标。TM已添加到已选择列。

    可以添加多个TM,最多可达200个TM和800万个段落。理想情况下,数据集应包含至少10,000个段落。

    点击TM名称将显示在翻译记忆库页面上的选择。

    点击Remove TM图标以从已选择列中移除TM。

  6. 点击保存

    数据集详情页面打开。

  7. 查看所呈现的详细信息,如果正确,请点击继续

    清理筛选器页面打开。

  8. 应用所需的筛选器并点击创建

    数据集已创建并添加到数据集页面上的列表中,初始状态为清理中,在为创建列中的状态为清理TM

AAC的清理筛选器

短语自定义AI允许借助AI驱动和基于规则的清理筛选器来策划翻译记忆库。提供默认设置,可能适合新用户。

此过程保留原始TM句段元数据TM标记,使用户在使用清理后的TM时能够保持TM的利用率。

可用的筛选器集包括基于规则的筛选器和基于机器学习的筛选器:

  • 基于规则的

    以明确的规则操作的筛选器,这些规则易于人类理解。此筛选器类别包括日期范围最小字符数句子对长度长度比不可翻译内容重复项近似重复项

  • 基于机器学习的

    分析文本内容本身以做出决策的筛选器,而不是简单地遵循固定的规则集。此筛选器类别包括源语和目标语不对齐语言识别

日期范围

排除设定日期之外的句段。段落的开始和结束日期以及最后修改日期都包括在内。

源文和译文不对齐

此筛选器决定段落在意义和语义相似性方面的匹配程度,去除评分最低的段落。句子对齐使用LASER指标进行测量。

使用AI引擎检查源文和译文是否表达相同的意思或相似程度。推荐的设置丢弃10%最差的段落,同时保留90%最好的段落。

高级设置允许更改对齐方式,或可以基于原始相似性分数进行筛选,使用0到1之间的数字(1表示完全对齐)。如果使用原始相似性分数,请谨慎,因为每对语言的分数分布不同,对于一对语言来说好的分数可能对另一对语言来说是不满意的分数。

通常,低于0.5的段落不是很好,而接近或超过1的段落在两种语言中是相同的段落。

示例:

字符串"你好,世界!1 2 3"包含19个字符和10个字母。

最小字符和字母计数

字符计数包括所有字符。这包括所有字母、空格、标点符号和符号。出于训练目的,丢弃不包含任何字母的段落可能是有用的。

字母计数仅计算字母,例如英语字母,但也包括带有变音符号的复杂字符或汉字。一个汉字算作一个字母,即使它表示多个字符。对于基于字符的语言,默认值为1,但对于基于单词的语言,默认值为4(字符)和3(字母)。最小值为1,最大值为500。

如果在数据中保留大量短句段(例如缩略语),请将筛选值保持在较低水平。

示例:

字符串"你好,世界!1 2 3"包含19个字符和10个字母。

句子对长度

此筛选器会移除所有超过用户设定阈值的句段。

总字符数包括源句和目标句中的所有字符 - 字母、空格和标点符号。考虑语言类型(例如中文和英文);如果源语言不是CJK类而目标语言是CJK(或反之),则此筛选器将被忽略。

长度比

此筛选器识别在比较源句段和目标句段时长度显著更高的句段。某些翻译在从源语言翻译到目标语言时长度会增加或减少。过长或过短的翻译可能表明句段质量低。

如果源语言不是CJK类而目标语言是(或反之),则此筛选器将被忽略。CJK

某些语言比其他语言更冗长,因此200%是一个不错的默认值。如果目标语言与源语言相似,或者需要过滤更多数据,则该值可以更低。

示例:

一种语言是CJK - 比例为1。它不会被丢弃:

{"source": "这是一个句子。", "target": "这是一个句子。"", "ratio": 1}

德语翻译与英语源句长度相当,不会被丢弃:

{"source": "这是一个句子。", "target": "Dies ist ein Satz.", "ratio": 1.1}

德语翻译比英语源句长得多,将被丢弃:

{"source": "这是一句句子。", "target": "这是一句带有额外不必要填充的句子。", "ratio": 3.1}

非译元素

非译元素是源句和目标句相同的句段。排除所有目标文本与源文本保持不变的非译句对。

重复项

创建具有相同源句的句段组。从每组中,仅保留最佳句段,因此如果句段的源句是唯一的,它会自动保留。否则,保留相似度得分最高的句段。

近重复项

在测试近重复项时,源句的(稍微清晰的版本)被标准化;所有非字母字符(一些示例:“,?)!-)被替换为空格,所有字母被转换为小写。

使用标准化的源句,创建具有相同标准化源句的句段组。从每组中,仅保留最佳句段,因此句段的标准化源句是唯一的,并会自动保留。否则,保留相似度得分最高的句段。

语言识别

使用AI引擎根据句子识别源语言和目标语言。仅当引擎识别出(源/目标)语言时,句段才会被移除(例如,较短的句子通常不足以让引擎确定语言),并且语言与预期不同。

QPS

QPS筛选器使得可以移除翻译记忆库中最低质量的句对,以确保结果句段的最高质量。

QPS筛选器可以通过两种方式进行配置:

  1. 移除具有最低QPS得分的句对的指定百分比。推荐为10%。

  2. 选择一个得分阈值。使用高级设置来消除低于可调QPS阈值的句子对。推荐的起始点是50。

这两个选项提供自动化的翻译记忆库管理,以符合用户的质量目标。

在TMS中使用整理过的翻译记忆库

翻译记忆库清理过程可能需要几个小时,必须在整理过的翻译记忆库可以使用之前完成。

要在TMS中使用整理过的翻译记忆库,请按照以下步骤操作:

  1. 点击Open More Menu并选择下载Download

    下载窗口打开。

  2. 选择下载 (.tmx)

这将触发一个数据集导出过程,只需几分钟。生成的整理过的翻译记忆库可以以.TMX格式上传到TMS,作为一个新的整理过的翻译记忆库,大小可达1 Gb。

如果对同一个翻译记忆库进行了两个或多个清理过程,可以在清理历史选项卡中访问不同版本。

这篇文章有帮助吗?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.