XML文件格式并不设计用于翻译,需要额外的设置以成功导入。
默认设置用星号(*)标记,将导入所有XML元素以进行翻译。导入选项可用于更改导入行为。
AI服务在识别.XML文件格式问题方面非常有效。
文件类型
-
.XML
导入选项
普通导入规则
-
仅导入选定的元素(例如:名称、标题、段落)。星号( )导入所有元素。
-
仅导入选定的属性(例如:名称、标题、段落)。星号( )导入所有属性。
-
如果选择了可译的行内元素导入。
选项,所有可翻译文本中的元素将作为 -
选定的行内元素名称、标题、段落将被转换为标签,内容将不可翻译。
-
文本节点的邻近元素将自动转换为行内标签。
-
选定的元素代码作为.HTML处理。.HTML导入设置,如保留空格或换行标签(<br/>)创建新段落可用于这些元素。
当选定元素值包含.HTML标记时,请使用此选项。除非另有说明,否则不适用于选定元素的子元素。
-
选定的元素将作为已锁定导入。
-
选定的属性将作为已锁定导入。
-
ICU 信息会自动转换为标签。带有 ICU 消息的文件不能包含任何行内元素。
-
DTD声明中的XML实体将被导入以进行翻译。
-
如果不需要分段,请取消选择。
-
如果元素被处理为 HTML,如 元素(处理为 HTML) 选项所示,则注释不会被导入。
-
应用正则表达式将指定文本转换为标签。
-
在输出文件中输入字符引用列表(用逗号分隔)。
例如:
XML 设置使用 XPath
使用 XPath 查询语言可以创建复杂的导入规则和一些在普通导入规则中不可用的附加功能。
XPath 表达式应定义要翻译的元素和/或属性的文本/值,而不是实际的文本节点。
建议在使用之前熟悉 XPath。
对于超过 10,000 个 XML 元素的文件,
、 和 将不会被处理。-
如果适用,则构成翻译记忆库上下文匹配(101% 匹配)。
-
导入每个元素的元素或上下文属性。
-
导入元素或每个元素的译文最大长度。每个句段的字符限制显示在编辑器内的窗口中。所有超出限制的字符都会被标红。
-
保持为空以保留元素中的空格。应用 xml:whitespace='preserve'. //* 以保留所有元素中的所有空格,或使用任意 XPath 表达式。
带有 XSLT 样式表的 HTML 预览
XSLT 语言(可扩展样式表语言转换)可用于将 .XML 文档转换为 .HTML 格式,以便于 上下文预览。因此,通过 预览翻译 在 文档 菜单中下载的预览文件带有 HTML 扩展名。Phrase 目前支持 XSLT 2.0。
用于预览的 XSLT 必须基于目标而不是源。
点击 选择文件 导入样式表。
点击 下载 XSLT 在文件导入后下载样式表。
XML 文件中的 CDATA
CDATA表示字符数据,定义为不被解析器处理但被识别为标记的文本块。预定义实体如<,
>
和&
需要输入,通常在标记中难以阅读。在这种情况下,可以使用CDATA部分。
如果CDATA包含嵌入的.HTML,则相应的XML元素应列在
下。如果源文件包含CDATA并且使用了
,则CDATA将添加到完成文件中的每个段落。只有在有明确的段落分隔指示(如标点或空格)时,CDATA才会被分段。
源:
<text><![CDATA[可译文本A。可译文本B。]]></text>
目标:
<text><![CDATA[可译文本A。]]><![CDATA[ ]]><![CDATA[可译文本B。]]></text>
完成的文件是有效的.XML,XML查看器将正确显示文本为可译文本A。可译文本B。
多语言文件作为多个双语作业导入,语言在导入前进行映射。它们在作业表中表示为。如果导入到多个目标语言中,完成文件由所有目标语言组成。
短语支持具有源和目标元素的XML文件,即使目标为空,所有段落也都存在。当源语和目标语的断句不同,源语的断句是决定性的。
单个语言元素必须都是同一 trans-unit 元素的后代,且一种语言不能包含在另一种语言中。源语和目标语的内容不能存储在属性值中。如果多个元素匹配 trans-unit 元素内的源语或目标语的 XPath,则仅导入第一个进行翻译。
-
创建 工作 时,请在应用导入选项之前从 面板中选择 。如果未指定,文件将作为标准 .XML 导入。
-
源 .XML 文件的标签内容可以通过点击 展开标签 在 菜单下可视化,并通过点击 F2 进行编辑。
例如:
从英语到德语和法语的部分翻译文本示例。所有 <tuv lang="en">
、<tuv lang="de">
和 <tuv lang="fr">
都是同一 <tu>
元素的子元素。
<?xml version="1.0" encoding="utf-8"?> <root> 不可翻译的文本。 <tu note="context note" key="ID 254" maxlen="16"> <tuv lang="en"> <seg>第一个句段。</seg> </tuv> <tuv lang="de"> <seg>第一句段</seg> </tuv> <tuv lang="fr"> <seg></seg> </tuv> </tu> <tu note="another context note" key="ID 255" maxlen="18"> <tuv lang="en"> <seg>第二个句段。</seg> </tuv> <tuv lang="de"> <seg></seg> </tuv> <tuv lang="fr"> <seg></seg> </tuv> </tu> </root>
导入选项
对于多语言 .XML 文件的导入,必须使用 XPath 查询语言。请参见上面的示例以供参考。XPath 表达式定义了文本/值应翻译的元素,而不是实际的文本节点。
-
//tu
-
tuv[@lang='en']/seg
(与父元素//tu
相关) -
tuv[@lang='de']/seg
(与 pa rent 元素//tu
相关) -
tuv[@lang='fr']/seg
(与父元素//tu
相关) -
源或目标中的所有元素被视为可译的内联元素,除非在此处指定为非可译的内联元素。
-
应用正则表达式将指定文本转换为标签。
-
指定一个上下文键,该键与段落一起保存到 翻译记忆库 中,并用于匹配上下文。
-
导入每个元素的元素或上下文属性。
-
导入元素或每个元素的最大目标长度
-
在输出文件中输入字符引用列表(用逗号分隔)。
例如:
-
ICU 信息会自动转换为标签。带有 ICU 消息的文件不能包含任何行内元素。
-
导入文件中包含的 HTML 标签。标签可以与 HTML 文件导入设置一起使用。段落标签
<p>
将创建新段,即使 未被选中。 -
文本是通过一般的 断句规则 进行分段,而不是每个单元一个段。
注意
将
应用到包含目标文本的文件可能会导致源中的段数与目标中的段数不同。 -
选择默认确认状态,以及是否将已确认的段自动添加到 TM。
示例: