.XML - 可扩展标记语言 (TMS)

文本由 Phrase Language AI 从英语机器翻译而得。

.XML 文件格式并非为翻译而设计，需要额外的设置才能成功导入。

默认设置标有星号 (*)，并将导入所有 XML 元素以进行翻译。可以使用导入选项来更改导入行为。

AI 服务在识别基于 .XML 的文件中的格式问题方面非常有效。

文件类型

.XML

导入选项

普通导入规则

元素

仅导入选定的元素 (即 name, title, para)。星号 (*) 导入所有元素。
属性

仅导入选定的属性 (即 name, title, para)。星号 (*) 导入所有属性。
可翻译的行内元素

如果选中自动识别行内元素选项，则可译文本中的所有元素都将作为 可译的行内元素 导入。
不可翻译的行内元素

选定的行内元素 name, title, para 将被转换为标记，且内容将不可译。

重要

标记问题是导致导出错误的常见原因（例如无法生成文件），特别是对于电子表格（基于 MS Excel）和 .XML 等文件类型。在导出文件之前，请务必通过运行质量保证检查来确保标记和格式正确。
自动识别内联元素

与文本节点相邻的元素将自动转换为行内标记。
元素（作为HTML格式处理）

选定的元素代码将作为 .HTML 处理。这些元素可以使用 .HTML 导入设置，例如 保留空格 或 换行标记 (<br/>) 创建新句段<4>。

当选定的元素值包含 .HTML 标记时，请使用此选项。除非另有说明，否则它不适用于选定元素的子元素。
锁定元素

选定的元素将作为 已锁定 导入。
锁定属性

选定的属性将作为 已锁定 导入。
转换为字符实体

在输出文件中输入字符引用列表（以逗号分隔）。

例如：

如果需要引号 (\")，它们将表示为 "，字符 Σ 将表示为 Σ，使用 ",Σ。& 和 < 始终分别导出为 & 和 <。
转换为 Phrase TMS 标签

应用正则表达式将指定文本转换为标签。
解析 ICU 信息

ICU 信息会自动转换为标签。当句段包含内联元素时，将跳过该句段的 ICU 解析。不含内联元素的句段将正常解析。
导入 XML 字符实体

DTD 声明中的 XML 实体将被导入以进行翻译。
展开自定义通用实体
导入备注

如果元素按照 元素（作为 HTML 处理） 选项中的指示被处理为 HTML，则不会导入注释。
从断句中排除子元素

选择此项可防止在 XML 对标记或子元素内进行断句。如果 XML 包含嵌套结构，且断句会破坏文本的逻辑含义，此功能非常有用。
创建 XSLT 预览文件

可以上传 .XSL 样式表，并从中生成可读的预览文件。

使用 XPath 的 XML 设置

使用 XPath<1> 查询语言可以创建复杂的导入规则，并实现一些普通导入规则无法提供的附加功能。

XPath 表达式应定义其文本/值需要翻译的元素和/或属性，而不是实际的文本节点。

建议在使用前熟悉 XPath。

对于包含超过 10,000 个 XML 元素的文档，上下文注释、上下文键和最大译文长度将不会被处理。

上下文键

如果适用，则构成翻译记忆库上下文匹配（101% 匹配）。

当未为上下文键指定 XPath 表达式时，XML 筛选默认不会生成上下文键。若要基于句段的结构路径生成上下文键，请在翻译记忆库<4> 匹配导入设置下，将句段上下文设置为句段键。
上下文注释

导入每个元素的元素或上下文属性。
译文长度最大值

导入元素或每个元素的译文最大长度。每个句段的字符限制显示在编辑器内的上下文注释窗口中。所有超出限制的字符都会被标红。
保留空白

保持空以保留元素中的空格。应用 xml:whitespace='preserve'. //*<1> 以保留所有元素中的所有空格，或使用任意 XPath 表达式。
排除在断句之外的节点

指定不应进行断句的 XML 元素或属性。输入一个用于标识要排除节点的 XPath 表达式。从这些节点提取的任何文本都将作为一个单一句段保留，而不是被拆分为更小的单元。

输入 //element[@attr='value'] 以从断句中排除所有包含属性 attr=\"value\" 的 <element> 节点。

带 XSLT 样式表的 HTML 预览

XSLT 语言（可扩展样式表语言转换）可用于将 .XML 文档转换为 .HTML 格式，以用于上下文预览。因此，通过文档菜单中的预览译文下载的预览文件带有 HTML 扩展名。Phrase 目前支持 XSLT 2.0。

用于预览的 XSLT 必须基于译文而非原文。

点击选择文件以导入样式表。

点击下载 XSLT 以在文件导入后下载样式表。

XML 文件中的 CDATA

CDATA 意为字符数据，定义为不被解析器处理但被识别为标记的文本块。诸如 <, > 和 & 之类的预定义实体需要输入，且通常在标记中难以阅读。在这种情况下，可以使用 CDATA 部分。

如果 CDATA 包含嵌入的 .HTML，则相应的 XML 元素应列在元素（作为 HTML 处理）下。

如果源文件包含 CDATA 且使用了句段 XML，则 CDATA 会被添加到已完成文件中的每个句段。

仅当有明确的句段断开指示（例如标点符号或空格）时，才会对 CDATA 进行断句。

原文：

<text><![CDATA[可译的文本 A。可译的文本 B。]]></text>

译文：

<text><![CDATA[可译的文本 A.]]><![CDATA[ ]]><![CDATA[可译的文本 B.]]></text>

已完成的文件是有效的 .XML 文件，XML 查看器将正确显示文本为 可译的文本 A. 可译的文本 B。

应用程序特定设置

Wordpress XML

Wordpress XML 的推荐设置：

XML

X路径
元素和属性

//*[local-name()='encoded']|//description|//title
元素（作为HTML格式处理）

//*[local-name()='encoded']|//description|//title
转换为 Phrase 标记

(\[[^\]]++\])++

在HTML设置下选择保留空格。

多语 XML 文件

多语言文件在导入前会映射语言，并作为多个双语工作导入。它们在工作表中以表示。如果导入到多种译文语言中，已完成文件将由所有译文语言组成。

Phrase 支持在所有段落中同时存在原文/源语和译文元素的 XML 文件，即使译文为空。当原文/源语和译文断句不同时，以原文/源语断句为准。

各个语言元素必须全部是同一个 trans-unit 元素的后代，且一种语言不能包含在另一种语言中。原文/源语和译文内容不能存储在属性值中。如果 trans-unit 元素内有多个元素匹配原文/源语或译文的 XPath，则仅导入第一个元素进行翻译。

创建工作时，请在应用导入选项之前从类型窗格中选择多语言 XML。如果未指定，文件将作为标准 .XML 导入。
原文/源语 .XML 文件的标签内容可以通过点击工具菜单下的展开标记在编辑器中可视化，并通过点击F2进行编辑。

例如：

从英语翻译为德语和法语的部分翻译文本示例。所有 <tuv lang=\"en\">、<tuv lang=\"de\"> 和 <tuv lang=\"fr\"> 都是同一个 <tu> 元素的子元素。

<?xml version="1.0" encoding="utf-8"?>
<root>
非可译文本。
<tu note="context note" key="ID 254" maxlen="16"> 
  <tuv lang="en">
    <seg>第一个句段。</seg>
  </tuv>
  <tuv lang="de">
    <seg>第一个句段</seg>
  </tuv>
  <tuv lang="fr">
    <seg></seg>
  </tuv>
</tu>
<tu note="another context note" key="ID 255" maxlen="18"> 
  <tuv lang="en">
    <seg>第二个句段。</seg>
  </tuv>
  <tuv lang="de">
    <seg></seg>
  </tuv>
  <tuv lang="fr">
    <seg></seg>
  </tuv>
</tu>
</root>

导入选项

对于多语言 .XML 文件的导入，必须使用 XPath 查询语言。请参阅上方的示例以供参考。XPath 表达式定义了应翻译文本/值的元素，而非实际的文本节点。

包含原文和译文子元素的元素

//tu
包含原文的元素

tuv[@lang='en']/seg（相对于父元素 //tu）
不可翻译的行内元素

除非在此处指定为非译元素，否则原文或译文中的所有元素均被视为可译的内联元素。
上下文键

指定一个与句段一同保存到翻译记忆库<1> 并用于匹配上下文的上下文键。
上下文注释

导入每个元素的元素或上下文属性。
译文长度最大值

导入元素或每个元素的译文最大长度
转换为字符实体

在输出文件中输入字符引用列表（以逗号分隔）。

例如：

如果需要引号 (\")，它们将表示为 "，字符 Σ 将表示为 Σ，使用 ",Σ。& 和 < 始终分别导出为 & 和 <。
转换为 Phrase TMS 标签

应用正则表达式将指定文本转换为标签。
解析 ICU 信息

ICU 信息会自动转换为标签。当句段包含内联元素时，将跳过该句段的 ICU 解析。不含内联元素的句段将正常解析。
使用 HTML 子过滤器

导入文件中包含的 HTML 标签。标签随后可用于 HTML 文件导入设置。即使未选中 Segment Multilingual XML，段落标签 <p> 也会创建新的句段。
使用 HTML 子过滤器

导入文件中包含的 HTML 标签。标签随后可用于 HTML 文件导入设置。
切分多语言 XML 文件

文本由常规断句规则进行句段划分，而非每个单元格一个句段。

注意

将多语言 XML 句段应用于包含译文的文件可能会导致原文和译文中的句段数量不同。
设置非空译文的句段状态

选择默认确认状态，以及是否将已确认的句段自动添加到翻译记忆库。
创建 XSLT 预览文件

可以上传 .XSL 样式表，并从中生成可读的预览文件。

示例：

如果多语言 .XML 包含命名空间，XPath 可能是以下内容：

包含原文和译文子元素的元素

//*[local-name()='trans-unit']
包含原文的元素

*[local-name()='source']
包含译文的元素

*[local-name()='target']

.XML - 可扩展标记语言 (TMS)

文本由 Phrase Language AI 从英语机器翻译而得。

文件类型

导入选项

重要

带 XSLT 样式表的 HTML 预览

XML 文件中的 CDATA

应用程序特定设置

Wordpress XML

多语 XML 文件

导入选项

注意