Custom AI

Create a Dataset

文本由 Phrase Language AI 从英语机器翻译而得。

翻译记忆库选择指南

Phrase Custom AI 利用翻译记忆库 (TMS) 创建符合特定术语和风格的自定义定义机器翻译 机器翻译 模型,与通用机器翻译相比,提高了这些内容类型的翻译质量(从而减少译后编辑时间)。

影响定制流程有效性的最重要因素是使用的翻译记忆库。这些是一般性指南,可以帮助确定为此使用哪些数据:

  • 单一领域:

    数据集最好侧重于涵盖单一风格和术语的内容。如果数据集包含多种领域(例如网站的法律术语和产品描述),模型可能无法学习所需的风格。

  • 唯一内容类型:

    自定义定义机器翻译翻译模型建立在基于从互联网收集的大量公共数据训练的通用模型之上。如果翻译记忆库中包含的数据与用于建立通用模型的通用数据非常相似,那么自定义过程就不会有什么好处。

  • 数据质量:

    模型将假设翻译记忆库中的每一个句子对都是期望其产生的输出的示例。翻译记忆库的质量必须良好,最好是用 Professional 人工翻译创建的。数据清理管道可以帮助筛选数据集中最有害的部分。

  • 预期数量:

    要使自定义在 RoI 方面产生影响,数据集需要代表机器翻译质量影响较大的大量数据。例如,如果某些机器翻译输出要由人工译员进行译后编辑,为了使 RoI 最大化,数据需要代表将要进行译后编辑的内容。

要创建用于训练自定义机器翻译引擎的数据集,请遵循以下步骤:

  1. 数据集页面中,单击训练自定义机器翻译引擎

    数据集详细信息页面打开。

  2. 提供数据集的名称。

  3. 语言选择器有多种选择:

    1. 要创建通用语言数据集,请在原文/源语/译文语言和区域选择器中选择相同的原文/源语和译文语言。

    2. 要创建特定区域的数据集,请从第一个下拉列表选择原文/源语和译文语言,然后从第二个下拉列表指定原文/源语和译文区域。

      还可以添加多个译文区域,以利用更多数据源。

    3. 要创建具有多个原文/源语和译文区域的数据集,请从第一个下拉列表选择原文/源语和译文语言,从第二个下拉列表指定原文/源语和译文区域(可以添加多个译文区域),然后单击+添加更多区域对。

    出现输入数据窗口。

  4. 单击添加翻译记忆库

    选择翻译记忆库页面打开,搜索功能search.jpg

  5. 要将翻译记忆库添加到数据集,请单击AddTM.jpg图标。翻译记忆库添加到选定列。

    最多可以添加 200 个 TMS,数据集最好至少包含 10,000 个句段。

    点击翻译记忆库名称将在翻译记忆库页面上显示选择。

    单击RemoveTM.jpg图标从选定列移除翻译记忆库。

  6. 点击保存

    数据集详细信息页面打开。

  7. 审校显示的详细信息,如果正确,请单击继续

    清除筛选条件页面打开。

  8. 应用所需的筛选条件,然后单击创建

    数据集被创建并添加到数据集页面的列表,初始状态为清理训练机器翻译状态在为创建列。

这篇文章有帮助吗?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.