分段是将源文本拆分为更小部分的过程。这可以改善从翻译记忆库中检索先前翻译文本的能力。段落在编辑器中呈现,并可以过滤。如果项目有工作流步骤,段落的更改将在翻译更改窗格中呈现。
默认分段规则与每种支持语言的具体情况相对应,并可以自定义。
导入的作业如果分段不良,例如格式不良的文档文件或不当的分段自定义,可能会影响TM匹配值。建议在导入之前花一些时间审查和准备源文件;一个常见问题是错误使用换行符与段落符。
示例:
良好的分段:
-
支持多语言目标语言的翻译记忆库,并可以双向使用。
匹配值为100%。
差的分段
-
支持多语言目标语言的翻译记忆库。
匹配值为100%。
-
并可以双向使用。
匹配值为63%。
自定义分段规则可以应用于作业和项目模板。如果项目需要自定义分段规则,则需要为该项目创建一个模板。设置为主要时,自定义的断句规则将应用于为该源语言导入的所有新作业。
有两种类型的断句规则:
-
.XLSX文件的缩写
-
.SRX文件的正则表达式
要使用自定义规则,请下载默认规则,修改它们,上传修改后的文件,然后将其应用于指定的作业。
注意
为无空格的CJK源语言添加自定义断句规则时(而目标语言将使用空格作为单词分隔符),确保在自定义规则拆分的目标段落前后添加空格;这将分隔翻译中的单词。虽然在由默认断句规则形成的段落中,这会自动发生,但在手动拆分的段落或由额外的自定义断句规则形成的段落中不会添加空格。
要下载默认断句规则,请按照以下步骤操作:
-
在设置
页面,向下滚动到部分,点击断句。
页面打开。
-
选择要自定义的语言,然后点击导出 XLSX/SRX。
窗口打开。
-
选择格式:
-
XLSX提供缩写列表。
-
SRX提供正则表达式规则。
-
-
从下拉列表中选择一种语言。
-
点击下载。
文件已下载到您的系统。
要下载您之前上传的分段规则,请按照以下步骤操作:
-
在设置
页面,向下滚动到部分,点击断句。
页面打开。
-
点击右侧的 设置 图标,然后选择 自定义列:
-
启用 文件名 列
-
点击文件名以下载预先保存的规则。
可以为单独的语言指定缩写,之后不应再创建新的段落。
要编辑缩写,请按照以下步骤操作:
-
在编辑器中打开下载的 .XLSX 文件。
-
使用以下格式更改内容:
XLSX 文件必须有两列且没有标题。
-
第一列:要指定的缩写
-
第二列:分段行为的说明
-
ABBR_UPPER_NUM
如果缩写后跟有空格,然后是数字、符号(数学、货币符号、装饰符等)或首字母大写的单词,则不会创建新段落。
-
ABBR_NUM
如果缩写后跟有空格,然后是数字,则不会创建新段落。
-
-
-
保存编辑后的 .XLSX 文件。
编辑 .SRX 文件是一个复杂的过程,仅适合有使用 正则表达式 经验的用户。
在 SRX 文件中可以更改几个规则:
-
从 XLSX 文件导入文本而不进行分段;一个单元格等于一个段落。
-
导入带有换行符的文本,以便将一个段落拆分为两个。
-
使用冒号(或任何其他字符)作为句段分隔符。
-
禁止使用分号(或任何其他字符)作为句段分隔符。
-
从列表中移除一个缩写(文本将被分段)。
这些规则是基于字符的;只能使用单个字符作为句段分隔符。字符组(例如:<p>)不能用作句段分隔符。
要编辑SRX文件,请按照以下步骤操作:
-
在文本编辑器中打开文件,例如Notepad ++。
-
使用正则表达式进行编辑或完全移除内部分段。
例如:
-
<rule break="no">规则列表,其中句段不会被打断。即:一个缩写列表
-
<rule> <beforebreak>在断开前的字符的正则表达式(例如,在句子末尾"。?!:")。如果您不想在冒号后分段文本,只需从每个
<rule><beforebreak>代码中删除:。 -
<rule> <afterbreak>在断开后的字符的正则表达式(例如,在新句子的开头;一个空格和大写字母)。
-
-
保存修改后的SRX文件。
要上传修改或新的分段规则,请按照以下步骤操作:
要在作业导入时使用自定义规则或配置目标句段长度,请按照以下步骤操作:
-
在创建作业的第8步中,从中单击断句和句段长度。
选项下拉菜单打开。
-
从下拉列表中选择修改后的规则。
-
可选地,根据项目要求配置目标句段长度的限制(例如:字幕翻译):
-
选择,并输入所需的百分比以限制句段长度。
-
选择,并输入字符数以限制句段长度。
-
-
单击创建。
作业已创建并使用指定的断句规则添加到列表中。
从SRX文件中移除所有inner断句规则,仅保留整个段落、元素或单元格的基本断句。此断句规则可以应用于每种文件类型(MS Word、XML、HTML、Excel等)。
例如:
此XLSX示例使用默认断句导入,将有3个段落:彼得!、等一下!和你好。
如果移除所有内部断句,仅保留基于单元格的基本断句,则只有两个段落:彼得!等一下!和你好。
编辑SRX文件以移除所有默认断句规则,即<!-- break rules -->和</languagerule>之间的代码。
例如:
级联可能导致此示例无法正常工作。在这种情况下,在Notepad++中打开编辑过的SRX文件,找到header元素的两个属性,并将两者更改为no。