正在清理筛选条件…

文本由 Phrase Language AI 从英语机器翻译而得。

训练机器翻译引擎最重要的方面不仅是数据量，还有数据质量。清理数据是一个普遍存在的问题，且手动清理非常费力。干净的数据可以带来更快的训练速度和更高质量的模型。

Phrase Custom AI 在 AI 驱动和基于规则的清理筛选器的帮助下，将翻译记忆库调整为数据集。提供的默认设置应适用于新用户。

可用的筛选器集包括基于规则的筛选器和基于机器学习的筛选器：

基于规则的

以人类易于理解的明确定义规则运行的筛选器。此筛选类别包括日期范围、最小字符数、句段对长度、长度比、不可译内容、重复项、近重复项。
基于机器学习的

通过分析文本本身的内容来做出决定，而不是仅仅遵循一组固定规则的筛选器。此筛选类别包括原文/源语与译文不匹配和语言识别。

所有筛选器均在句段的清理版本上进行评估；除其他事项外，多个空格会被缩减为一个，并且 Phrase 标记会被移除。

日期范围

排除设定日期之外的句段。结束日期和开始日期以及句段的最后修改日期均包含在内。

原文/源语与译文不匹配

此筛选器根据含义和语义相似度确定句段的匹配程度，并移除评分最低的句段。句段对对齐情况使用 LASER 指标进行衡量。

AI 引擎用于检查原文和译文表达的意思是否相同，或相同程度如何。推荐的设置会丢弃最差的 10% 的片段，同时保留最好的 90% 的片段。

高级设置允许更改对齐方式，或者可以作为基于原始相似度分数的筛选，使用 0 到 1 之间的数字（1 表示完全对齐）。如果使用原始相似度分数，建议谨慎行事，因为每个语言对的分数分布不同，对于一个语言对来说是好的分数，对于另一个语言对来说可能是不令人满意的分数。

通常低于 0.5 的片段不是很好，而接近或超过 1 的片段是两种语言中相同的片段。

示例：

{"source": "Super.", "target": "Super.", "similarity": 1.05}

{"source": "Hello", "target": "http://wwww.sdsadsa.com", "similarity": 0.3}

最小字符和字母计数

字符计数包含所有字符。这包括所有字母、空格、标点符号和符号。出于训练目的，丢弃不包含任何字母的片段可能很有用。

字母计数仅计算字母，例如英语字母表中的字母，但也包括带有变音符号的更复杂的字符或中文字符。一个中文字符被计为一个字母，即使它代表不止一个字符。对于基于字符的语言，默认值为 1，但对于基于单词的语言，默认值为 4（字符）和 3（字母）。最小值为 1，最大值为 500。

如果要在数据中保留大量短片段（例如缩写词），请保持较低的筛选值。

示例：

字符串 \"Hello, World!"1 2 3\" 有 19 个字符和 10 个字母。

句子对长度

此筛选会移除所有长于用户设置的阈值的片段。使用此筛选的原因是，大多数 NMT 系统实际上不会对长于其内部阈值的片段进行训练。

例如，NextMT的内部阈值为 200 个标记，约等于 100 - 1,000 个单词。要针对较短的句子训练自定义引擎，请将此值设置得低于默认值。

总字符计数包括所有字符——字母、空格和标点符号——来自原文/源语和译文句段。考虑语言类型（例如中文和英文）；如果原文/源语语言不是 CJK 类语言，而译文语言是 CJK（反之亦然），则此筛选将被忽略。

长度比

此筛选用于识别在比较原文/源语句段和译文句段时长度明显偏高的句段。从原文/源语语言翻译为译文语言时，某些译文的长度会增加或减少。过长或过短的译文可能表明训练数据质量低下。

如果原文/源语语言不是 CJK 类语言，而译文语言是（反之亦然），则此筛选将被忽略。CJK

有些语言比其他语言更冗长，因此 200% 是一个不错的默认值。如果译文语言与原文/源语语言相似，或者需要筛选出更多数据，则该值可以更低。

示例：

一种语言是 CJK - 比率为 1。它不会被丢弃：

{"source": "This is a sentence.", "target": "这是一个句子。", "ratio": 1}

德语译文的长度与英语原文/源语相当，因此不会被丢弃：

{"source": "This is a sentence.", "target": "Dies ist ein Satz.", "ratio": 1.1}

德语译文比英语原文/源语长得多，因此会被丢弃：

{"source": "This is a sentence.", "target": "Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.", "ratio": 3.1}

非译元素

非译元素是指原文/源语句段和译文句段相同的句段。排除所有译文文本与原文/源语文本保持不变的非译元素句对。

重复项

创建具有相同原文/源语句子的句段组。从每个组中，仅保留最佳句段，因此如果某个句段的原文/源语句子是唯一的，它会被自动保留。否则，保留具有最高相似度分数的分数句段。

近似重复项

在测试近似重复项时，原文/源语句子（略微清理的版本）会被标准化；所有非字母字符（一些示例：“,?)!-）都会被替换为空格，并且所有字母都会转换为小写。

使用标准化后的原文/源语句子，创建具有相同标准化原文/源语句子的句段组。从每个组中，仅保留最佳句段，因此句段的标准化原文/源语句子是唯一的，并会被自动保留。否则，保留具有最高相似度分数的分数句段。

语言识别

使用 AI 引擎根据句段识别原文/源语和译文语言。仅当引擎识别出（原文/源语/译文）语言（例如，较短的句段通常不足以让引擎确定语言）且该语言与预期不同时，才会移除该句段。

QPS

QPS（质量评估分数）筛选会移除数据集中质量最低的句段对，以确保生成的 AI 模型基于可用的最高质量数据进行训练。通常，训练数据的质量越高，定制模型的表现就越好。

QPS（质量评估分数）筛选可以通过两种方式进行配置：

移除指定百分比的 QPS（质量评估分数）分数最低的句段对。建议值为 10%。
选择一个分数阈值。使用高级设置来剔除低于可调 QPS（质量评估分数）阈值的句段对。建议的起始点为 50。

这两个选项提供自动化的数据集整理功能，以符合用户的质量目标。