翻译记忆库选择指南
Phrase Custom AI 利用翻译记忆库 (TMS) 来创建遵循特定术语和风格的自定义定义机器翻译 机器翻译 模型,与通用机器翻译相比,这类内容的翻译质量有了提高(译译后编辑时间也相应缩短)。
使用过的翻译记忆库是影响定制流程效果的最重要的因素。以下是可以帮助确定为此目的使用哪些数据的一般准则:
-
单一领域:
数据集最好侧重于单一风格和术语的内容。如果数据集包含多个领域的混合(例如,网站的法律术语和产品描述),模型可能无法学习所需的风格。
-
唯一内容类型:
自定义定义机器翻译翻译模型的基础是使用从互联网上收集的大量公共数据训练的通用模型。如果翻译记忆库包含的数据与用于建立通用模型的通用数据非常相似,则自定义过程不会获得什么好处。
-
数据质量:
模型假设翻译记忆库中的每个句段都是期望输出的句段。翻译记忆库库的质量必须很高,最好是用Professional的人工翻译创造的。数据清理管道可以帮助筛选出数据集中最有害的部分。
-
期望数量:
若想让定制对 RoI 产生影响,数据集需要代表机器翻译质量影响较大的大批量数据。例如,如果某些机器翻译输出必须由人工翻译进行译后编辑,为了使 RoI 最大化,数据需要代表将被译后编辑的内容。
要创建数据集,请按照以下步骤操作:
-
点击 + 新建数据集。
将打开
页面。 -
为数据集命名。
-
语言选择器支持以下选项:
-
要创建通用语言数据集,请在原文/源语和译文语言及区域选择器中选择相同的原文/源语和译文语言。
-
要创建特定于区域的数据集,请从第一个下拉列表中选择原文/源语和译文语言,然后从第二个下拉列表中指定原文/源语和译文区域。
还可添加多个译文区域,以利用更多数据来源。
-
要创建具有多个原文/源语和译文区域的数据集,请从第一个下拉列表中选择原文/源语和译文语言,从第二个下拉列表中指定原文/源语和译文区域(可以添加多个译文区域),然后单击+添加更多区域。
显示“
窗口。 -
-
单击添加翻译记忆库。
库页面打开时,搜索功能打开。
-
要在数据集中添加翻译记忆库,请单击图标。翻译记忆库被添加到
列。最多可以添加 10 个 TMS,数据集最好至少包含一万条句段。
单击翻译记忆库名称将在翻译记忆库页面上显示选择。
点击图标,从
列移除翻译记忆库。 -
单击保存。
将打开
页面。 -
审校显示的详细信息,如果正确,请单击继续。
将打开
页面。 -
应用所需的过滤器并单击创建。
该数据集已创建并添加到
页面的列表中,初始状态为 。