Custom AI

正在清理筛选条件

文本由 Phrase Language AI 从英语机器翻译而得。

训练机器翻译引擎时,最重要的因素不仅是数量,还包括数据质量。清理数据是一个长期存在的普遍问题,手动清理是一个艰巨的过程。干净的数据可以加快训练速度,提高模型质量。

Phrase Custom AI 允许帮助 AI 和基于规则的清理筛选条件将翻译记忆库转换为数据集。提供了可能适合新用户的默认设置。

可用的筛选条件集包括基于规则的筛选条件和基于ML的筛选条件:

  • 基于规则

    筛选条件遵循人类极易理解的明确规则。筛选类别包括日期范围最小字符数句对长度长度比非译元素重复近重复

  • 基于 ML

    筛选条件,分析文本本身的内容以做出决定,而不仅仅是遵循一组固定的规则。筛选类别包括原文/源语和译文以及语言识别

所有筛选条件都会评估已清理的句段版本。例如,将多个空格减为一个并删除 Phrase 标记

日期范围

结束和开始日期都包含账户最后修改句段的日期。

原文/源语和译文不匹配

筛选条件允许用户确定句段在意思和语义相似性方面的匹配程度,剔除最差的句段。句段对齐使用 LASER 指标测量。

AI 引擎用于检查原文/源语和译文的意思是否相同或相同。推荐设置丢弃 10% 最差的句段,保留 90% 最好的句段。

高级设置允许更改对齐方式,或者可以使用0到1之间的数字(1表示完成对齐)基于原始相似性分数进行筛选。谨慎使用原始相似分数,因为每个语言对的分数分布不同,并且一个语言对被认为是好的分数可能对另一个语言对来说是不满意的分数。

一般来说,低于 0.5 的句段不是很好,接近或超过 1 的句段是两种语言中相同的句段。

例如:

{"source":"Super.", "target":"Super.", "similarity":1.05}

{"source":"Hello", "target": "http://wwww.sdsadsa.com", "similarity":0.3}

最小字符数和字母数

字符数包括所有字符。包括所有字母、空格、标点和符号。出于训练目的,丢弃不包含任何字母的句段可能是有用的。

字母计数不仅包括字母,如英文字母,还包括带有变音符或汉字的更复杂的字符。一个汉字符算作一个字母,即使它代表不止一个汉字符。基于字符的语言的默认值为 1,而基于单词的语言的默认值为 4(字符)和 3(字母)。最小值为 1,最大值为 500。

如果数据中保留了很多短的句段(例如缩写),请保持较低的筛选选值。

例如:

字符串“您好,世界!1 2 3" 有 19 个字符和 10 个字母。

句段长度

筛选条件会删除所有大于用户设置阈值的句段。筛选的原因是大多数 NMT 系统实际上不会训练大于其内部阈值的句段。 

例如,NextMT 的内部阈值为 200 个令牌,大约等于 100-1,000 个字。要针对较短的句段训练自定义定义引擎,请将此值设置为低于默认值。

字符包括原文/源语和译文句的所有字符——字母、空格和标点。考虑语言的类型(例如中文和英文);如果原文/源语语言不是类似于CJK的语言而译文语言是CJK(或相反),则此筛选将被忽略。

长度比

筛选条件可在对比原文/源语句段和译文句段时,识别长度明显高于原文/源语句段的句段。从原文/源语翻译到译文语言时,译文的长度可能会有所变化。译文过长或过短可能表明训练数据质量欠佳。

如果原文/源语语言不是类似于CJK的语言而译文语言是(或相反),则此筛选将被忽略。CJK

某些语言比其他语言更详细,因此 200% 是一个很好的默认值。如果译文语言与原文/源语语言相似,或者需要过滤掉更多的数据,则该值可以更低。

例如:

一种语言是 CJK —— 比率是 1。不会被丢弃:

{"source":“这是一个句子。”,“译文:“这是一个句子。", "ratio":1}

德语译文的长度与英语原文/源语相当,不会丢弃:

{"source":“这是一个句子。”,“译文”:“死在萨兹”,“比率”:1.1}

德语译文比英语原文/源语文长很多,将被丢弃:

{"source":“这是一个句子。”,“译文”:“Dies ist ein Satz mit zusätzlichen unnötigen Füllungen.”, “ratio”:3.1}

非译元素

非译元素指的是原文/源语和译文相同的句段。排除译文与原文/源语文本相同的所有非译元素句段。

重复

创建具有相同原文/源语句子的句段组。每组只保留最佳句段,若句段原文/源语唯一,则会自动保留。否则。将保留相似性分数最高的句段。

近似重复句段

在测试近乎重复句段时,原文/源语句子的(稍微干净一些的版本)会被标准化;所有非字母字符(例如:“,?)!-)都会被替换为空间并且所有字母都变成小写。

使用归一化的原文/源语句,将创建具有相同归一化的原文/源语句的句段组。每组只保留最佳句段,故自动保留句段的原文/源语原句。否则。将保留相似性分数最高的句段。

语言识别

AI 引擎根据句子识别原文/源语和译文语言。句段只有在引擎识别了(原文/源语/译文)语言(例如,较短的句段通常不足以让引擎确定语言)并且语言与预期不同时才会被删除。

QPS

通过 QPS(质量评估分数)筛选,可以移除数据集内质量最低的句段,确保生成的 AI 模型是根据可获得的最高质量数据训练的。一般来说,训练数据的质量越高,自定义模型的表现越好。

QPS(质量评估分数)筛选条件有两种:

  1. 删除 QPS(质量评估分数)最低的句对的指定百分比。推荐值为 10%。

  2. 正在选择分数阈值。使用高级设置删除低于可调 QPS(质量评估分数)阈值的句段。建议的起点是 50。

这两个选项提供了自动数据集整理功能,以便与用户的质量目标保持一致。

这篇文章有帮助吗?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.