文件导入设置

.XML - 可扩展标记语言 (TMS)

文本由 Phrase Language AI 从英语机器翻译而得。

.XML 文件格式并不设计用于翻译,需要额外的设置以成功导入。

默认设置用星号 (*) 标记,将导入所有 XML 元素以供翻译。导入选项可用于更改导入行为。

AI 服务在识别 .XML 基于文件的格式问题方面非常有效。

文件类型

  • .XML

导入选项

普通导入规则

  • 元素

    仅导入选定的元素 (例如:名称、标题、段落)。星号 (*) 导入所有元素。

  • 属性

    仅导入选定的属性 (例如:名称、标题、段落)。星号 (*) 导入所有属性。

  • 可译的行内元素

    如果选择了 自动识别行内元素 选项,所有可译文本中的元素将作为 可译的行内 元素导入。

  • 非可译的行内元素

    选定的行内元素 名称、标题、段落 将被转换为标签,内容将不可译。

    重要

    标签 相关的问题是导出错误的常见原因(例如 文件无法生成),尤其是对于 电子表格(基于 MS Excel)和 .XML 等文件类型。在导出文件之前,始终确保标签和格式正确,通过运行质量保证检查。

  • 自动识别行内元素

    文本节点的邻近元素将自动转换为行内标签。

  • 元素(作为 HTML 处理)

    所选元素代码作为 .HTML 处理。.HTML 导入设置,例如 保留空格换行标签(<br/>)创建新句段 可用于这些元素。

    当所选元素值包含 .HTML 标记时,请使用此选项。除非另有说明,否则不适用于所选元素的子元素。

  • 已锁定元素

    所选元素将作为 已锁定 导入。

  • 已锁定属性

    所选属性将作为 已锁定 导入。

  • 转换为字符实体

    在输出文件中输入字符引用列表(用逗号分隔)。

    例如:

    如果需要引号("),它们将表示为 &quot;,字符 Σ 将表示为 &#x3A3; 使用 &quot;,&#x3A3;&< 始终导出为 &amp;&lt;

  • 转换为 Phrase TMS 标签 

    应用 正则表达式 将指定文本转换为标签。

  • 解析 ICU 信息

    ICU 信息会自动转换为标签。当一个句段包含行内元素时,该句段的 ICU 解析将被跳过。没有内联元素的段落会被正常解析。

  • 导入 XML 字符实体

    DTD 声明 中的 XML 字符实体将被导入进行翻译。

  • 展开自定义通用实体

  • 导入备注

    如果元素被处理为 HTML,如 元素(作为 HTML 处理) 选项所示,则不会导入备注。

  • 排除子元素的断句

    选择以防止在 XML 对标签或子元素内进行 断句。如果 XML 包含嵌套结构,断句会破坏文本的逻辑意义,这一点非常有用。

  • 创建 XSLT 预览文件

    .XSL 样式表可以上传,并从中生成可读的预览文件。

使用 XPath 的 XML 设置

使用 XPath 查询语言可以创建复杂的导入规则以及一些在普通导入规则中不可用的附加功能。

XPath 表达式应定义应翻译的元素和/或属性的文本/值,而不是实际的文本节点。

在使用之前建议熟悉 XPath。

上下文注释上下文键最大目标长度 将不会处理超过 10,000 个 XML 元素的文件。

  • 上下文键

    如果适用,则构成翻译记忆库上下文(101% 匹配)。

  • 上下文注释

    导入每个元素的元素或上下文属性。

  • 译文长度最大值

    导入元素或每个元素的译文最大长度。每个句段的字符限制显示在编辑器内的上下文注释窗口中。所有超出限制的字符都会被标红。

  • 保留空白

    保持为空以保留元素中的空白。应用xml:whitespace='preserve'. //*以保留所有元素中的空白,或使用任意XPath表达式。

  • 排除的节点

    指定不应被分段的XML元素或属性。输入一个XPath表达式以识别要排除的节点。从这些节点提取的任何文本将作为一个单独的句段保留,而不是拆分成更小的单元。

    输入//element[@attr='value']以排除所有包含属性attr="value"<element>节点。

带有XSLT样式表的HTML预览

XSLT语言(可扩展样式表语言转换)可用于将.XML文档转换为.HTML格式,以便于上下文预览。因此,通过预览翻译文档菜单中下载的预览文件带有HTML扩展名。Phrase当前支持XSLT 2.0。

用于预览的XSLT必须基于译文而不是源文。

点击选择文件以导入样式表。

点击下载XSLT以在文件导入后下载样式表。

XML文件中的CDATA

CDATA表示字符数据,定义为不被解析器处理但被识别为标记的文本块。预定义实体如&lt;,&gt;&amp;需要输入,通常在标记中难以阅读。在这种情况下,可以使用CDATA部分。

如果CDATA包含嵌入的.HTML,则相应的XML元素应列在元素(作为HTML处理)下。

如果源文件包含CDATA并且使用了段XML,则CDATA会添加到完成文件中的每个段落中。

只有在有明确的段落分隔指示(如标点或空格)时,CDATA才会被分段。

源:

<text><![CDATA[可译文本A。可译文本B。]]></text>

目标:

<text><![CDATA[可译文本A。]]><![CDATA[ ]]><![CDATA[可译文本B。]]></text>

完成的文件是有效的.XML,XML查看器将正确显示文本为可译文本A。可译文本B

应用程序特定设置

Wordpress XML

Wordpress XML的推荐设置:

  • XML

    XPath

  • 元素和属性

    //*[local-name()='encoded']|//description|//title

  • 元素(作为 HTML 处理)

    //*[local-name()='encoded']|//description|//title

  • 转换为Phrase标签

    (\[[^\]]++\])++

HTML设置下选择保留空格

多语言XML

多语言文件作为多个双语作业导入,语言在导入前进行映射。它们在multilingual_xml.png工作表中表示。如果导入到多个目标语言中,已完成文件由所有目标语言组成。

短语支持包含源和目标元素的XML文件,即使目标为空,也适用于所有段落。当源和目标的分段不同,源的分段是决定性的。

各个语言元素必须都是同一trans-unit元素的后代,且一种语言不能包含在另一种语言内。源和目标内容不能存储在属性值中。如果多个元素匹配trans-unit元素内的源或目标的XPath,则仅导入第一个进行翻译。

  • 创建工作时,请在应用导入选项之前,从多语言XML文件类型窗格中选择。如果未指定,文件将作为标准.XML导入。

  • 源.XML文件的标签内容可以通过点击展开标签工具菜单下可视化,并通过点击F2进行编辑。

例如:

部分翻译的文本示例,从英语翻译到德语和法语。所有<tuv lang="en"><tuv lang="de"><tuv lang="fr">都是同一<tu>元素的子元素。

<?xml version="1.0" encoding="utf-8"?>
<root>
不可翻译的文本。
<tu note="context note" key="ID 254" maxlen="16"> 
  <tuv lang="en">
    <seg>第一个段落。</seg>
  </tuv>
  <tuv lang="de">
    <seg>第一段</seg>
  </tuv>
  <tuv lang="fr">
    <seg></seg>
  </tuv>
</tu>
<tu note="another context note" key="ID 255" maxlen="18"> 
  <tuv lang="en">
    <seg>第二个段落。</seg>
  </tuv>
  <tuv lang="de">
    <seg></seg>
  </tuv>
  <tuv lang="fr">
    <seg></seg>
  </tuv>
</tu>
</root>

导入选项

对于多语言 .XML 文件的导入,必须使用 XPath 查询语言。请参见上面的示例以获取参考。XPath 表达式定义了文本/值应翻译的元素,而不是实际的文本节点。

  • 包含源和目标子元素的元素

    //tu

  • 包含源文本的元素

    tuv[@lang='en']/seg(与父元素 //tu 相关)

  • 非可译的行内元素

    源或目标中的所有元素被视为可译的内联元素,除非在此处指定为非可译的内联元素。

  • 上下文键

    指定一个上下文键,该键与句段一起保存到 翻译记忆库 中,并用于匹配上下文。

  • 上下文注释

    导入每个元素的元素或上下文属性。

  • 译文长度最大值

    导入元素或每个元素的最大目标长度

  • 转换为字符实体

    在输出文件中输入字符引用列表(用逗号分隔)。

    例如:

    如果需要引号("),它们将表示为 &quot;,字符 Σ 将表示为 &#x3A3; 使用 &quot;,&#x3A3;&< 始终导出为 &amp;&lt;

  • 转换为 Phrase TMS 标签 

    应用 正则表达式 将指定文本转换为标签。

  • 解析 ICU 信息

    ICU 信息会自动转换为标签。当一个句段包含行内元素时,该句段的 ICU 解析将被跳过。没有内联元素的段落会被正常解析。

  • 使用 HTML 子过滤器 

    导入文件中包含的 HTML 标签。标签可以与 HTML 文件导入设置一起使用。段落标签 <p> 将创建新句段,即使 切分多语言 XML 未被选中。

  • 使用 HTML 子过滤器

    导入文件中包含的 HTML 标签。标签可以与 HTML 文件导入设置一起使用。

  • 切分多语言 XML

    文本是通过一般的 断句规则 进行切分,而不是每个单元格一个句段。

    注意

    切分多语言 XML 应用到包含目标文本的文件可能会导致源中的句段数量与目标中的句段数量不同。

  • 设置非空译文的句段状态 

    选择默认确认状态以及是否自动将已确认的句段添加到翻译记忆库。

  • 创建 XSLT 预览文件

    .XSL 样式表可以上传,并从中生成可读的预览文件。

示例

如果一个多语言 .XML 包含命名空间,XPath 可能如下:

  • 包含源和目标子元素的元素

    //*[local-name()='trans-unit']

  • 包含源文本的元素

    *[local-name()='source']

  • 包含目标文本的元素

    *[local-name()='target']

这篇文章有帮助吗?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.