自动化资产策展

文本由 Phrase Language AI 从英语机器翻译而得。

策划翻译记忆库是一个长期存在的问题，手动清理是一个繁琐的过程。清理翻译记忆库可以为语言学家提供更好的参考，并提高机器翻译的质量，这对于短语 NextMT尤其相关，因为它具有利用语言资产（如翻译记忆库和术语表）的先进能力。

为AAC创建数据集

要创建一个用于在TMS中使用策划TM的数据集，请按照以下步骤操作：

在数据集页面上，点击清理翻译记忆库。

数据集详情页面打开。
为数据集提供一个名称。
语言选择器提供多种选项：
1. 要创建一个通用语言数据集，请在源语言和目标语言选择器中选择相同的源语言和目标语言。
2. 要创建一个特定区域的数据集，请从第一个下拉列表中选择源语言和目标语言，然后从第二个下拉列表中指定源语言和目标语言的区域。
  
  还可以添加多个目标区域（即同一语言的不同变体）以利用更多的数据源。
3. 要创建一个具有多个源和目标区域的数据集，请从第一个下拉列表中选择源语言和目标语言，从第二个下拉列表中指定源语言和目标语言的区域（可以添加同一目标语言的不同变体），然后点击+ 添加更多区域对。
输入数据窗口出现。
点击添加翻译记忆库。

选择翻译记忆库页面打开，并带有搜索功能。
要将TM添加到数据集中，请点击图标。TM已添加到已选择列。

可以添加多个TM，最多可达200个TM和800万个段落。理想情况下，数据集应包含至少10,000个段落。

点击TM名称将显示在翻译记忆库页面上的选择。

点击图标以从已选择列中移除TM。
点击保存。

数据集详情页面打开。
查看所呈现的详细信息，如果正确，请点击继续。

清理筛选器页面打开。
应用所需的筛选器并点击创建。

数据集已创建并添加到数据集页面上的列表中，初始状态为清理中，在为创建列中的状态为清理TM。

AAC的清理筛选器

短语自定义AI允许借助AI驱动和基于规则的清理筛选器来策划翻译记忆库。提供默认设置，可能适合新用户。

此过程保留原始TM句段元数据和TM标记，使用户在使用清理后的TM时能够保持TM的利用率。

可用的筛选器集包括基于规则的筛选器和基于机器学习的筛选器：

基于规则的

以明确的规则操作的筛选器，这些规则易于人类理解。此筛选器类别包括日期范围、最小字符数、句子对长度、长度比、不可翻译内容、重复项、近似重复项。
基于机器学习的

分析文本内容本身以做出决策的筛选器，而不是简单地遵循固定的规则集。此筛选器类别包括源语和目标语不对齐和语言识别。

日期范围

排除设定日期之外的句段。段落的开始和结束日期以及最后修改日期都包括在内。

源文和译文不对齐

此筛选器决定段落在意义和语义相似性方面的匹配程度，去除评分最低的段落。句子对齐使用LASER指标进行测量。

使用AI引擎检查源文和译文是否表达相同的意思或相似程度。推荐的设置丢弃10%最差的段落，同时保留90%最好的段落。

高级设置允许更改对齐方式，或可以基于原始相似性分数进行筛选，使用0到1之间的数字（1表示完全对齐）。如果使用原始相似性分数，请谨慎，因为每对语言的分数分布不同，对于一对语言来说好的分数可能对另一对语言来说是不满意的分数。

通常，低于0.5的段落不是很好，而接近或超过1的段落在两种语言中是相同的段落。

示例:

字符串"你好，世界！1 2 3"包含19个字符和10个字母。

最小字符和字母计数

字符计数包括所有字符。这包括所有字母、空格、标点符号和符号。出于训练目的，丢弃不包含任何字母的段落可能是有用的。

字母计数仅计算字母，例如英语字母，但也包括带有变音符号的复杂字符或汉字。一个汉字算作一个字母，即使它表示多个字符。对于基于字符的语言，默认值为1，但对于基于单词的语言，默认值为4（字符）和3（字母）。最小值为1，最大值为500。

如果在数据中保留大量短句段（例如缩略语），请将筛选值保持在较低水平。

示例：

字符串"你好，世界！1 2 3"包含19个字符和10个字母。

句子对长度

此筛选器会移除所有超过用户设定阈值的句段。

总字符数包括源句和目标句中的所有字符 - 字母、空格和标点符号。考虑语言类型（例如中文和英文）；如果源语言不是CJK类而目标语言是CJK（或反之），则此筛选器将被忽略。

长度比

此筛选器识别在比较源句段和目标句段时长度显著更高的句段。某些翻译在从源语言翻译到目标语言时长度会增加或减少。过长或过短的翻译可能表明句段质量低。

如果源语言不是CJK类而目标语言是（或反之），则此筛选器将被忽略。CJK

某些语言比其他语言更冗长，因此200%是一个不错的默认值。如果目标语言与源语言相似，或者需要过滤更多数据，则该值可以更低。

示例:

一种语言是CJK - 比例为1。它不会被丢弃：

{"source": "这是一个句子。", "target": "这是一个句子。"", "ratio": 1}

德语翻译与英语源句长度相当，不会被丢弃：

{"source": "这是一个句子。", "target": "Dies ist ein Satz.", "ratio": 1.1}

德语翻译比英语源句长得多，将被丢弃：

{"source": "这是一句句子。", "target": "这是一句带有额外不必要填充的句子。", "ratio": 3.1}

非译元素

非译元素是源句和目标句相同的句段。排除所有目标文本与源文本保持不变的非译句对。

重复项

创建具有相同源句的句段组。从每组中，仅保留最佳句段，因此如果句段的源句是唯一的，它会自动保留。否则，保留相似度得分最高的句段。

近重复项

在测试近重复项时，源句的（稍微清晰的版本）被标准化；所有非字母字符（一些示例：“,?)!-）被替换为空格，所有字母被转换为小写。

使用标准化的源句，创建具有相同标准化源句的句段组。从每组中，仅保留最佳句段，因此句段的标准化源句是唯一的，并会自动保留。否则，保留相似度得分最高的句段。

语言识别

使用AI引擎根据句子识别源语言和目标语言。仅当引擎识别出（源/目标）语言时，句段才会被移除（例如，较短的句子通常不足以让引擎确定语言），并且语言与预期不同。

QPS

QPS筛选器使得可以移除翻译记忆库中最低质量的句对，以确保结果句段的最高质量。

QPS筛选器可以通过两种方式进行配置：

移除具有最低QPS得分的句对的指定百分比。推荐为10%。
选择一个得分阈值。使用高级设置来消除低于可调QPS阈值的句子对。推荐的起始点是50。

这两个选项提供自动化的翻译记忆库管理，以符合用户的质量目标。

在TMS中使用整理过的翻译记忆库

翻译记忆库清理过程可能需要几个小时，必须在整理过的翻译记忆库可以使用之前完成。

要在TMS中使用整理过的翻译记忆库，请按照以下步骤操作：

点击并选择下载。

下载窗口打开。
选择下载 (.tmx)。

这将触发一个数据集导出过程，只需几分钟。生成的整理过的翻译记忆库可以以.TMX格式上传到TMS，作为一个新的整理过的翻译记忆库，大小可达1 Gb。

如果对同一个翻译记忆库进行了两个或多个清理过程，可以在清理历史选项卡中访问不同版本。