正在清理筛选条件

文本由 Phrase Language AI 从英语机器翻译而得。

训练机器翻译引擎最重要的方面不仅是数量，还有数据质量。清理数据是一个普遍存在的问题，手动清理非常繁琐。干净的数据可以加快训练速度并提高模型质量。

Phrase自定义AI利用AI驱动和基于规则的清理筛选器将翻译记忆转化为数据集。提供的默认设置应适合新用户。

可用的筛选器集包括基于规则的筛选器和基于机器学习的筛选器：

基于规则的

根据明确的规则操作的筛选器，这些规则易于人类理解。此筛选器类别包括日期范围、最小字符数、句子对长度、长度比、不可翻译内容、重复内容、近似重复内容。
基于机器学习的

分析文本内容本身以做出决策的筛选器，而不是简单地遵循固定的规则集。此筛选器类别包括源语和目标语不对齐和语言识别。

所有筛选器在清理后的句段上进行评估；其中，多个空格被减少为一个，Phrase 标记被移除。

日期范围

排除设定日期之外的句段。结束日期和开始日期包括在内，以及句段的最后修改日期。

源语和目标语不对齐

此筛选器确定句段在意义和语义相似性方面的匹配程度，移除评分最低的句段。句子对的对齐使用LASER指标进行测量。

一个AI引擎用于检查源文本和目标文本是否具有相同的意思或相似程度。推荐的设置丢弃10%最差的段落，同时保留90%最好的段落。

高级设置允许更改对齐方式，或者可以基于原始相似度分数进行筛选，使用0到1之间的数字（1表示完全对齐）。如果使用原始相似度分数，建议谨慎，因为每对语言的分数分布不同，对于一对语言来说被认为是好分数的分数可能对另一对语言来说是不满意的分数。

通常，低于0.5的段落不是很好，而接近或超过1的段落在两种语言中是相同的段落。

示例：

{"source": "Super.", "target": "Super.", "similarity": 1.05}

{"source": "Hello", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}

最小字符和字母计数

字符计数包括所有字符。这包括所有字母、空格、标点符号和符号。出于训练目的，丢弃不包含任何字母的段落可能是有用的。

字母计数仅计算字母，例如英语字母表中的字母，但也包括带有变音符号的更复杂字符或汉字。一个汉字被计算为一个字母，即使它表示多个字符。对于基于字符的语言，默认值为1，但对于基于单词的语言，默认值为4（字符）和3（字母）。最小值为1，最大值为500。

如果在数据中保留大量短段落（例如缩写），请保持筛选值较低。

示例：

字符串 "你好，世界！1 2 3" 有19个字符和10个字母。

句对长度

此筛选器移除所有超过用户设定阈值的句段。此筛选器的原因是大多数NMT系统实际上不会对超过其内部阈值的句段进行训练。

例如，NextMT的内部阈值为200个标记，大约等于100 - 1,000个单词。要在较短的句子上训练自定义引擎，请将此值设置为低于默认值。

总字符数包括源句和目标句中的所有字符 - 字母、空格和标点符号。考虑语言类型（例如中文和英文）；如果源语言不是CJK类而目标语言是CJK（或反之），则此筛选器将被忽略。

长度比

此筛选器识别在比较源句段和目标句段时长度显著更高的句段。某些翻译在从源语言翻译到目标语言时长度会增加或减少。过长或过短的翻译可能表明低质量的训练数据。

如果源语言不是CJK类而目标语言是（或反之），则此筛选器将被忽略。CJK

某些语言比其他语言更冗长，因此200%是一个不错的默认值。如果目标语言与源语言相似，或者需要过滤更多数据，则该值可以更低。

示例：

一种语言是CJK - 比例为1。它不会被丢弃：

{"source": "这是一个句子。", "target": "这是一个句子。"", "ratio": 1}

德语翻译与英语源文本长度相当，不会被丢弃：

{"source": "这是一个句子。", "target": "Dies ist ein Satz.", "ratio": 1.1}

德语翻译比英语原文长得多，将被丢弃：

{"source": "这是一个句子。", "target": "这是一个包含额外不必要填充的句子。", "ratio": 3.1}

非译元素

非译元素是源句和目标句相同的句段。排除所有目标文本与源文本保持不变的非译句对。

重复项

创建具有相同源句的句段组。从每组中，仅保留最佳句段，因此如果句段的源句是唯一的，它会自动保留。否则，保留相似度得分最高的句段。

近重复项

在测试近重复项时，源句的（稍微清晰的版本）被标准化；所有非字母字符（一些示例：“,?)!-）被替换为空格，所有字母被转换为小写。

使用标准化的源句，创建具有相同标准化源句的句段组。从每组中，仅保留最佳句段，因此句段的标准化源句是唯一的，并会自动保留。否则，保留相似度得分最高的句段。

语言识别

使用AI引擎根据句子识别源语言和目标语言。仅当引擎识别出（源/目标）语言时，句段才会被移除（例如，较短的句子通常不足以让引擎确定语言），并且语言与预期不同。

QPS

QPS筛选器移除数据集中最低质量的句对，以确保生成的AI模型在可用的最高质量数据上进行训练。通常，训练数据的质量越高，定制模型的表现就越好。

QPS筛选器可以通过两种方式进行配置：

移除具有最低QPS得分的句对的指定百分比。推荐值为10%。
选择分数阈值。使用高级设置来消除低于可调QPS阈值的句子对。推荐的起始点为50。

这两个选项提供自动化数据集策划，以符合用户的质量目标。