创建数据集

文本由 Phrase Language AI 从英语机器翻译而得。

翻译记忆库选择指南

短语自定义AI利用翻译记忆库（TMs）创建自定义机器翻译（MT）模型，这些模型遵循特定的术语和风格，从而提高翻译质量（因此减少这些内容类型的译后编辑时间），与通用机器翻译相比。

影响定制过程有效性的最重要因素是所使用的翻译记忆库。这些是一些通用指南，可以帮助确定用于此目的的数据：

单一领域:

数据集最好集中在涵盖单一风格和术语的内容上。如果数据集包含多个领域的混合（例如，网站的法律术语和产品描述），模型可能无法学习所需的风格。
独特内容类型:

自定义MT模型建立在基于从互联网收集的大量公共数据训练的通用模型之上。如果翻译记忆库包含与用于构建通用模型的通用数据非常相似的数据，那么定制过程将不会有太大收益。
数据质量:

模型将假设翻译记忆库中的每对句子都是它将被期望生成的输出示例。翻译记忆库必须质量良好，理想情况下应由专业人工翻译创建。数据清洗管道可以帮助筛选出数据集中最有害的部分。
预期量:

为了使定制在投资回报率（RoI）方面产生影响，数据集需要代表机器翻译质量影响更大的大部分数据。例如，如果一些机器翻译输出需要由人工翻译进行译后编辑，为了最大化RoI，数据需要代表将被译后编辑的内容。

为自动资产策划创建数据集的过程略有不同。

要创建用于训练自定义MT引擎的数据集，请遵循以下步骤：

在数据集页面，点击训练自定义机器翻译引擎。

数据集详情页面打开。
为数据集提供一个名称。
语言选择器提供多种选项：
1. 要创建一个通用语言数据集，请在源语言和目标语言及区域选择器中选择相同的源语言和目标语言。
2. 要创建一个特定区域的数据集，请从第一个下拉列表中选择源语言和目标语言，然后从第二个下拉列表中指定源区域和目标区域。
  
  还可以添加多个目标区域（即同一语言的不同变体）以利用更多的数据源。
3. 要创建一个具有多个源区域和目标区域的数据集，请从第一个下拉列表中选择源语言和目标语言，从第二个下拉列表中指定源区域和目标区域（可以添加同一目标语言的不同变体），然后点击+ 添加更多区域对。
输入数据窗口出现。
点击添加翻译记忆库。

选择翻译记忆库页面打开，并带有搜索功能。
要将TM添加到数据集中，请点击图标。TM已添加到已选择列。

可以添加多个TM，最多可达200个TM和800万个段落。理想情况下，数据集应包含至少10,000个段落。

点击TM名称将在翻译记忆库页面上显示选择。

点击图标以从已选择列中移除TM。
点击保存。

数据集详情页面打开。
查看所呈现的详细信息，如果正确，请点击继续。

清理过滤器页面打开。
应用所需的过滤器，然后点击创建。

数据集已创建并添加到数据集页面的列表中，初始状态为清理中，在为列中的状态为训练机器翻译。