断句是将源文本拆分为更小的部分。这改善了从翻译记忆库中检索先前翻译文本的能力。段落在编辑器中呈现,并可以过滤。如果项目有工作流步骤,段落中的更改将在翻译更改窗格中呈现。
默认的断句规则与每种支持语言的具体情况相对应,并可以自定义。
导入的作业如果有不良的断句,例如格式不良的文档文件或不当的断句自定义,可能会影响TM匹配值。建议在导入之前花一些时间审查和准备源文件;一个常见的问题是错误使用换行符与段落符。
示例:
良好的断句:
-
支持多语言目标语言的翻译记忆库,并可以双向使用。
匹配值为100%。
差的断句
-
支持多语言目标语言的翻译记忆库。
匹配值为100%。
-
并可以双向使用。
匹配值为63%。
自定义的断句规则可以应用于作业和项目模板。如果项目需要自定义的断句规则,则需要为该项目创建一个模板。当设置为主要时,自定义的断句规则将应用于为该源语言导入的所有新作业。
有两种类型的断句规则:
-
缩写到 .XLSX 文件
-
正则表达式的 .SRX 文件
要使用自定义规则,请下载默认规则,修改它们,上传修改后的文件,然后将其应用于指定的任务。
注意
在为无空格的 CJK 源语言添加自定义断句规则时(而目标语言将使用空格作为单词分隔符),确保在由自定义规则拆分的目标段落前后添加空格;这将限制翻译中的单词。虽然在由默认断句规则形成的段落中,这会自动发生,但在手动拆分的段落或由额外的自定义断句规则形成的段落中不会添加空格。
要下载默认断句规则,请按照以下步骤操作:
-
从设置
页面,向下滚动到 部分并点击 断句。
页面打开。
-
选择要自定义的语言并点击 导出 XLSX/SRX。
窗口打开。
-
选择格式:
-
XLSX 提供缩写列表。
-
SRX 提供正则表达式规则。
-
-
从下拉列表中选择一种语言。
-
点击 下载。
文件已下载到您的系统。
要下载您之前上传的断句规则,请按照以下步骤操作:
-
从设置
页面,向下滚动到 部分并点击 断句。
页面打开。
-
单击右侧的 设置 图标,然后选择 自定义列:
-
启用 文件名 列
-
单击文件名以下载预先保存的规则。
可以为单独的语言指定缩写,之后不应创建新段落。
要编辑缩写,请按照以下步骤操作:
-
在编辑器中打开下载的 .XLSX 文件。
-
使用以下格式更改内容:
XLSX 文件必须有两列且没有标题。
-
列 1:要指定的缩写
-
列 2:分段行为的规范
-
ABBR_UPPER_NUM
如果缩写后跟空格,然后是数字、符号(数学、货币符号、装饰符等)或首字母大写的单词,则不会创建新段。
-
ABBR_NUM
如果缩写后跟空格,然后是数字,则不会创建新段。
-
-
-
保存编辑过的 .XLSX 文件。
编辑 .SRX 文件是一个复杂的过程,仅适合有使用 正则表达式 经验的用户。
在 SRX 文件中可以更改几个规则:
-
从 XLSX 文件导入文本而不进行分段;一个单元格等于一个段。
-
导入文本并换行以将一个句段拆分为两个。
-
使用冒号(或任何其他字符)作为句段分隔符。
-
禁止使用分号(或任何其他字符)作为句段分隔符。
-
从列表中移除一个缩写(文本将被分段)。
这些规则是基于字符;只能使用单个字符作为句段分隔符。字符组(例如:<p>)不能用作句段分隔符。
要编辑SRX文件,请按照以下步骤操作:
-
在文本编辑器中打开文件,例如记事本++。
-
使用正则表达式进行编辑或完全移除内部分段。
例如:
-
<rule break="no">
规则列表,其中句段不会被打断。即:缩写列表
-
<规则> <中断前>
在中断前的字符的正则表达式(例如,在句子末尾"。?!:")。如果您,例如,不想在冒号后分段文本,只需从每个
<规则><中断前>
代码中删除:
。 -
<规则> <中断后>
在中断后的字符的正则表达式(例如,在新句子的开头;一个空格和大写字母)。
-
-
保存修改后的SRX文件。
要上传修改或新的分段规则,请按照以下步骤操作:
要在作业导入时使用自定义规则或配置目标段落长度,请按照以下步骤操作:
-
在 创建作业 的第 8 步中,从 中点击 断句和段落长度。
选项下拉菜单打开。
-
从
下拉列表中选择修改后的规则。 -
可选地,根据项目要求配置目标段落长度的限制(例如:字幕翻译):
-
选择
并输入所需的百分比,以根据源段落限制段落长度。 -
选择
并输入字符数,以根据字符数限制段落长度。
-
-
点击 创建。
作业已创建并使用指定的断句规则添加到列表中。
从 SRX 文件中移除所有 inner 断句规则,仅保留整个段落、元素或单元格的基本断句。此断句规则可以应用于每种文件类型(MS Word、XML、HTML、Excel 等)。
例如:
此 XLSX 示例使用默认断句导入,将有 3 个段落:彼得!、等一下! 和 你好。
如果移除所有内部断句,仅保留基于单元格的基本断句,则只有两个段落:彼得!等一下! 和 你好。
编辑 SRX 文件以移除所有默认断句规则,即 <!-- break rules -->
和 </languagerule>
之间的代码。
例如:
级联可能导致此示例无法正常工作。在这种情况下,在 Notepad++ 中打开编辑后的 SRX 文件,找到 header
元素的两个属性,并将两者更改为 no
.