断句是将源文本拆分为更小的部分。这改善了从翻译记忆库中检索先前翻译文本的能力。段落在编辑器中呈现,并可以过滤。如果项目有工作流步骤,段落中的更改将在翻译更改窗格中呈现。
默认的断句规则与每种支持语言的具体情况相对应,并可以自定义。
导入的作业如果有不良的断句,例如格式不良的文档文件或不当的断句自定义应用,可能会影响TM匹配值。建议在导入之前花一些时间审查和准备源文件;一个常见问题是错误使用换行符与段落符。
示例:
良好的断句:
-
支持多语言目标语言的翻译记忆库,并可以双向使用。
匹配值为100%。
差的断句
-
支持多语言目标语言的翻译记忆库。
匹配值为100%。
-
并可以双向使用。
匹配值为63%。
自定义的断句规则可以应用于作业和项目模板。如果项目需要自定义的断句规则,则需要为该项目创建一个模板。当设置为主要时,自定义的断句规则将应用于为该源语言导入的所有新作业。
有两种类型的分段规则:
-
缩写到 .XLSX 文件
-
正则表达式的 .SRX 文件
要使用自定义规则,请下载默认规则,修改它们,上传修改后的文件,然后将其应用于指定的任务。
注意
在为无空格的 CJK 源语言添加自定义分段规则时(而目标语言将使用空格作为单词分隔符),确保在自定义规则拆分的目标段落前后添加空格;这将分隔翻译中的单词。虽然在默认分段规则形成的段落中,这会自动发生,但在手动拆分的段落或由额外的自定义分段规则形成的段落中不会添加空格。
要下载默认分段规则,请按照以下步骤操作:
-
从设置
页面,向下滚动到 部分,然后单击 分段。
页面打开。
-
选择要自定义的语言并单击 导出 XLSX/SRX。
窗口打开。
-
选择格式:
-
XLSX 提供缩写列表。
-
SRX 提供正则表达式规则。
-
-
从下拉列表中选择一种语言。
-
单击 下载。
文件已下载到您的系统。
要下载您之前上传的分段规则,请按照以下步骤操作:
-
从设置
页面,向下滚动到 部分,然后单击 分段。
页面打开。
-
单击右侧的 设置 图标,然后选择 自定义列:
-
启用 文件名 列
-
单击文件名以下载预先保存的规则。
可以为单独的语言指定缩写,之后不应创建新段落。
要编辑缩写,请按照以下步骤操作:
-
在编辑器中打开下载的 .XLSX 文件。
-
使用以下格式更改内容:
XLSX 文件必须有两列且没有标题。
-
第一列:要指定的缩写
-
第二列:分段行为的规范
-
ABBR_UPPER_NUM
如果缩写后跟空格,然后是数字、符号(数学、货币符号、装饰符等)或首字母大写的单词,则不会创建新段。
-
ABBR_NUM
如果缩写后跟空格,然后是数字,则不会创建新段。
-
-
-
保存编辑过的 .XLSX 文件。
.SRX 文件的编辑是一个复杂的过程,仅适合有使用 正则表达式 经验的用户
在 SRX 文件中可以更改几个规则:
-
从 XLSX 文件导入文本而不进行分段;一个单元格等于一个段。
-
导入带有换行的新文本以将一个句段拆分为两个。
-
使用冒号(或任何其他字符)作为句段分隔符。
-
禁止使用分号(或任何其他字符)作为句段分隔符。
-
从列表中移除一个缩写(文本将被分段)。
这些规则是基于字符;只能使用单个字符作为句段分隔符。字符组(例如:<p>)不能用作句段分隔符。
要编辑SRX文件,请按照以下步骤操作:
-
在文本编辑器中打开文件,例如记事本++。
-
使用正则表达式进行编辑或完全移除内部分段。
例如:
-
<rule break="no">规则列表,其中句段不会被打断。即:缩写列表
-
<rule> <beforebreak>在断点前的字符的正则表达式(例如,在句子末尾"。?!:")。如果您,例如,不想在冒号后分段文本,只需从每个
<规则><断点前>代码中删除:。 -
<rule> <afterbreak>在断点后的字符的正则表达式(例如,在新句子的开头;一个空格和大写字母)。
-
-
保存修改后的SRX文件。
要上传修改或新的分段规则,请按照以下步骤操作:
要在作业导入时使用自定义规则或配置目标句段长度,请按照以下步骤操作:
-
在创建作业的第8步中,从中点击断句和句段长度。
选项下拉菜单打开。
-
从下拉列表中选择修改后的规则。
-
可选地,根据项目要求(例如字幕翻译)配置目标句段长度的限制:
-
选择并输入所需的百分比,以限制基于源句段的句段长度。
-
选择并输入字符数,以按字符数限制句段长度。
-
-
点击创建。
作业已创建并使用指定的断句规则添加到列表中。
从SRX文件中移除所有内部断句规则,仅保留整个段落、元素或单元格的基本断句。此分段规则可以应用于每种文件类型(MS Word、XML、HTML、Excel等)。
例如:
此XLSX示例使用默认分段导入将有3个段落:彼得!,等一下!,和你好。
如果所有内部分段被移除,仅保留基于单元格的基本分段,则只有两个段落:彼得!等一下!和你好。
编辑SRX文件以移除所有默认分段规则,即<!-- break rules -->和</languagerule>之间的代码。
例如:
级联可能导致此示例无法正常工作。在这种情况下,在Notepad++中打开编辑后的SRX文件,找到header元素的两个属性并将两者更改为no。