断句是将原文/源语分成更小的部分。这改进了从翻译记忆库中检索以前翻译的文本。句段在编辑器中显示,可以进行筛选。
默断句则符合每种支持语言的具体情况,并可自定义。
导入的工作断句错误,如文档文件格式不当或应用了不正确的断句自定义,都可能影响翻译记忆库匹配值。
示例:
好断句:
-
支持多语言译文记忆库,可双向使用。
匹配为 100%。
断句错误
-
支持多语言译文记忆库。
匹配为 100%。
-
并可以双向使用。
匹配为 63%。
自定义断句规则可应用于工作和项目模板。如果项目需要自定义断句规则,则需要为该项目创建一个模板。当设置为主要时,自定断句则应用于为原文/源语语言导入的所有新工作。
断句规则有两种:
-
.XLSX 文件的缩写
-
.SRX 文件的正则表达式
要使用自定义规则,请下载默认规则,进行修改,上传修改后的文件,然后将其应用于指定工作。
注意事项
为无空间的中日原文/源语语言添加自定义断句则时(而译文语言将使用空格作为单词分隔符),确保为被自定义义规则拆分的译文句段添加前导或尾随空格;这将分隔翻译中的单词。虽然这会自动发生在由默断句则形成的句段中,但在手动拆分的句段中或通过其他自定义断句则形成的句段中不会添加空格。
要下载默认断句规则,请按照以下步骤操作:
-
从设置
页面,向下滚动到 部分,然后单击断句。
页面打开。
-
选择要自定义的语言,然后单击导出XLSX/SRX。
窗口打开。
-
选择格式:
-
XLSX 提供了缩写列表。
-
SRX 提供正则表达式规则。
-
-
从下拉列表中选择语言。
-
点击下载。
文件下载到您的系统。
要下载以前上传的断句规则,请按照以下步骤操作:
-
从设置
页面,向下滚动到 部分,然后单击断句。
页面打开。
-
点击右侧的设置图标并选择自定义列:
-
启用文件名列
-
单击文件名下载预保存的规则。
可以为单个语言指定缩写,之后不应创建新句段。
要编辑缩写,请遵循以下步骤:
-
在编辑器中打开下载的 .XLSX 文件。
-
使用以下格式更改内容:
XLSX 文件必须有两列,没有标题。
-
第1列:缩写待定
-
第2列:断句行为规范
-
ABBR_UPPER_NUM
如果缩写后跟空格,然后跟数字、符号(数学、货币符号、丁字等)或第一个字母大写的单词,则不创建新句段。
-
ABBR_NUM
如果缩写后跟空格再跟数字,将不创建新句段。
-
-
-
保存编辑的 .XLSX 文件。
编辑 .SRX 文件是一个复杂的过程,仅适合具有使用正则表达式经验的用户
SRX 文件中有几种规则可以更改:
-
从 XLSX 文件中导入文本,无需断句;一个单元格等于一个句段。
-
导入带有新行的文本,订单便将一个句段拆分为两个。
-
使用冒号(或任何其他字符)作为句句段隔符。
-
禁止使用分号(或任何其他字符)作为句句段分隔符。
-
从列表中删除缩写(文本将被分段)。
这些规则是基于字符的;只能使用单个字符作为句段分隔符。字符组(例如:<p>)不能用作句句段隔符。
要编辑 SRX 文件,请遵循以下步骤:
-
在记事本++等文本编辑器中打开文件。
-
使用正则表达式编辑或完全移除内部断句。
例如:
-
<rule break="no">
规则列表,其中句段不会被破坏。即缩写列表
-
<rule> <beforebreak>
一个字符在句段前(例如,在句子“. ? !:”的末尾)的正正则表达式达式。例如,如果您不想在冒号后分割句段文本,只需从每个
<rule><beforebreak>
代码中删除:
。 -
<rule> <afterbreak>
换句后字符的正则表达式式(例如,在新句首;空间和大写字母)。
-
-
保存修改后的 SRX 文件。
要上上传改后的或新的断句规则,请遵循以下步骤:
要在导入工作中使用自定义定义规则,请遵循以下步骤:
-
在创建工作的步骤8,从 中单击断句和句段长度。
选项下拉列表打开。
-
从
下拉列表选择修改的规则。 -
点击创建。
使用指定的断句规则创建工作并将其添加到列表。
移除 SRX 文件中所有内部断句规则,仅保留整个段落、元素或单元格的基本断句。断句则可以应用于所有文件类型(MS Word、XML、HTML、Excel 等)。
例如:
这个用默认断句导入的XLSX示例将有三个断句:彼得!、等等!和你好。
如果删除所有内部断句,仅保留基于单元格的基本断句,则只有两个断句:Peter!等等! 你好。
编辑SRX文件以移除所有默认断句规则,即<!--断句规则-->
和</languagerule>
之间的代码。
例如:
级联可能会导致此示例无法工作。在这种情况下,在记事本++中打开编辑好的SRX文件,找到header
元素的两个属性,并将它们都更改为否
。