文件导入设置

.XML - Extensible Markup Language (TMS)

文本由 Phrase Language AI 从英语机器翻译而得。

该.XML文件格式并不设计用于翻译,并且需要额外的设置以成功导入。

默认设置用星号(*)标记,并将导入所有XML元素以进行翻译。导入选项可用于更改导入行为。

AI服务在识别.XML文件格式问题方面非常有效。

文件类型

  • .XML

导入选项

普通导入规则

  • 元素

    仅导入选定的元素(例如:名称、标题、段落)。星号(*)导入所有元素。

  • 属性

    仅导入选定的属性(例如:名称、标题、段落)。星号(*)导入所有属性。

  • 可翻译的行内元素

    如果选择了自动识别行内元素选项,则可翻译文本中的所有元素将作为可译的行内元素导入。

  • 不可翻译的行内元素

    选定的行内元素名称、标题、段落将被转换为标签,内容将不可翻译。

    重要

    标签相关的问题是导出错误的常见原因(例如:文件无法生成),尤其是对于如电子表格(基于MS Excel)和.XML等文件类型。在导出文件之前,通过运行质量保证检查,始终确保标签和格式正确。

  • 自动识别内联元素

    文本节点的邻近元素将自动转换为行内标签。

  • 元素(作为HTML格式处理)

    选定的元素代码作为.HTML处理。.HTML导入设置,如保留空格换行标签(<br/>)创建新段落可用于这些元素。

    当选定元素值包含.HTML标记时,请使用此选项。除非另有说明,否则不适用于选定元素的子元素。

  • 锁定元素

    选定的元素将作为已锁定导入。

  • 锁定属性

    选定的属性将作为已锁定导入。

  • 转换为字符实体

    在输出文件中输入字符引用列表(用逗号分隔)。

    例如:

    如果需要引号 ("),它们将表示为 &quot;,字符 Σ 将表示为 &#x3A3; 使用 &quot;,&#x3A3; . &< 始终导出为 &amp;&lt; 分别。

  • 转换为 Phrase TMS 标签 

    应用正则表达式将指定文本转换为标签。

  • 解析 ICU 信息

    ICU 信息会自动转换为标签。当一个句段包含内联元素时,该句段的 ICU 解析将被跳过。没有内联元素的句段将正常解析。

  • 导入 XML 字符实体

    DTD 声明 中的 XML 实体将被导入以进行翻译。

  • 展开自定义通用实体

  • 导入备注

    如果元素被处理为 HTML,如 作为 HTML 处理的元素 选项所示,则注释不会被导入。

  • 从断句中排除子元素

    选择以防止在 XML 对标签或子元素内进行 断句。如果 XML 包含嵌套结构,其中的断句会破坏文本的逻辑含义,这将非常有用。

  • 创建 XSLT 预览文件

    .XSL 样式表可以上传,并从中生成可读的预览文件。

使用 XPath 的 XML 设置

使用 XPath 查询语言可以创建复杂的导入规则和一些在普通导入规则中不可用的附加功能。

XPath 表达式应定义应翻译的元素和/或属性的文本/值,而不是实际的文本节点。

建议在使用之前熟悉 XPath。

上下文注释上下文键最大目标长度 将不会处理超过 10,000 个 XML 元素的文件。

  • 上下文键

    如果适用,则构成翻译记忆库上下文匹配(101% 匹配)。

  • 上下文注释

    导入每个元素的元素或上下文属性。

  • 译文长度最大值

    导入元素或每个元素的译文最大长度。每个句段的字符限制显示在编辑器内的上下文注释窗口中。所有超出限制的字符都会被标红。

  • 保留空白

    保持为空以保留元素中的空格。应用 xml:whitespace='preserve'. //* 以保留所有元素中的所有空格,或使用任意 XPath 表达式。

  • 排除在断句之外的节点

    指定不应被断句的 XML 元素或属性。输入一个 XPath 表达式,以识别要排除的节点。从这些节点提取的任何文本将作为一个单一的句段保留,而不是拆分成更小的单元。

    输入 //element[@attr='value'] 以排除所有包含属性 attr="value"<element> 节点的断句。

HTML 预览与 XSLT 样式表

XSLT 语言(可扩展样式表语言转换)可用于将 .XML 文档转换为 .HTML 格式以便于 上下文预览。因此,通过 预览翻译文档 菜单中下载的预览文件带有 HTML 扩展名。短语当前支持 XSLT 2.0。

用于预览的 XSLT 必须基于目标而不是源。

点击 选择文件 导入样式表。

点击 下载 XSLT 在文件导入后下载样式表。

XML 文件中的 CDATA

CDATA 意味着字符数据,定义为不被解析器处理但被识别为标记的文本块。预定义实体如 &lt;, &gt;&amp; 需要输入,通常在标记中难以阅读。在这种情况下,可以使用 CDATA 部分。

如果 CDATA 包含嵌入的 .HTML,则相应的 XML 元素应列在 元素(作为 HTML 处理) 下。

如果源文件包含 CDATA 并且使用了 段 XML,则 CDATA 会添加到完成文件中的每个段落。

只有在有明确的段落分隔指示(如标点或空格)时,CDATA 才会被分段。

源:

<text><![CDATA[Translatable text A. Translatable text B.]]></text>

目标:

<text><![CDATA[Translatable text A.]]><![CDATA[ ]]><![CDATA[Translatable text B.]]></text>

完成的文件是有效的 .XML,XML 查看器将正确显示文本为 可译文本 A. 可译文本 B

应用程序特定设置

Wordpress XML

推荐的Wordpress XML设置:

  • XML

    X路径

  • 元素和属性

    //*[local-name()='encoded']|//description|//title

  • 元素(作为HTML格式处理)

    //*[local-name()='encoded']|//description|//title

  • 转换为 Phrase 标记

    (\[[^\]]++\])++

HTML设置下选择保留空格

多语言XML

多语言文件作为多个双语工作导入,语言在导入前进行映射。它们在作业表中表示为multilingual_xml.png。如果导入到多个目标语言中,已完成文件由所有目标语言组成。

短语支持具有源和目标元素的XML文件,即使目标为空,所有段落也应存在。当源和目标的分段不同,源的分段将决定。

各个语言元素必须都是同一trans-unit元素的后代,且一种语言不能包含在另一种语言内。源和目标内容不能存储在属性值中。如果多个元素匹配trans-unit元素内的源或目标的XPath,则仅导入第一个进行翻译。

  • 创建作业时,在应用导入选项之前,从文件类型窗格中选择多语言XML。如果未指定,文件将作为标准.XML导入。

  • 源.XML文件的标签内容可以通过点击展开标签工具菜单下可视化,并通过点击F2进行编辑。

例如:

从英语到德语和法语的部分翻译文本示例。所有<tuv lang="en"><tuv lang="de"><tuv lang="fr">都是同一<tu>元素的子元素。

<?xml version="1.0" encoding="utf-8"?>
<root>
不可翻译的文本。
<tu note="context note" key="ID 254" maxlen="16"> 
  <tuv lang="en">
    <seg>第一句段。</seg>
  </tuv>
  <tuv lang="de">
    <seg>第一句段</seg>
  </tuv>
  <tuv lang="fr">
    <seg></seg>
  </tuv>
</tu>
<tu note="另一个上下文注释" key="ID 255" maxlen="18"> 
  <tuv lang="en">
    <seg>第二句段。</seg>
  </tuv>
  <tuv lang="de">
    <seg></seg>
  </tuv>
  <tuv lang="fr">
    <seg></seg>
  </tuv>
</tu>
</root>

导入选项

对于多语言 .XML 文件的导入,必须使用 XPath 查询语言。请参见上面的示例以获取参考。XPath 表达式定义了文本/值应翻译的元素,而不是实际的文本节点。

  • 包含原文和译文子元素的元素

    //tu

  • 包含原文的元素

    tuv[@lang='en']/seg(与父元素 //tu 相关)

  • 不可翻译的行内元素

    源或目标中的所有元素被视为可译的内联元素,除非在此处指定为非可译的内联元素。

  • 上下文键

    指定一个上下文键,该键与句段一起保存到 翻译记忆库 中,并用于匹配上下文。

  • 上下文注释

    导入每个元素的元素或上下文属性。

  • 译文长度最大值

    导入元素或每个元素的最大目标长度

  • 转换为字符实体

    在输出文件中输入字符引用列表(用逗号分隔)。

    例如:

    如果需要引号 ("),它们将表示为 &quot;,字符 Σ 将表示为 &#x3A3; 使用 &quot;,&#x3A3; . &< 始终导出为 &amp;&lt; 分别。

  • 转换为 Phrase TMS 标签 

    应用正则表达式将指定文本转换为标签。

  • 解析 ICU 信息

    ICU 信息会自动转换为标签。当一个句段包含内联元素时,该句段的 ICU 解析将被跳过。没有内联元素的句段将正常解析。

  • 使用 HTML 子过滤器 

    导入文件中包含的 HTML 标签。标签可以与 HTML 文件导入设置一起使用。段落标签 <p> 将创建新句段,即使 段落多语言 XML 未被选中。

  • 使用 HTML 子过滤器

    导入文件中包含的 HTML 标签。标签可以与 HTML 文件导入设置一起使用。

  • 切分多语言 XML 文件

    文本是通过一般的 断句规则 进行分段,而不是每个单元一个句段。

    注意

    段落多语言 XML 应用到包含目标文本的文件可能会导致源中的句段数量与目标中的不同。

  • 设置非空译文的句段状态 

    选择默认确认状态,以及是否将已确认的句段自动添加到翻译记忆库。

  • 创建 XSLT 预览文件

    .XSL 样式表可以上传,并从中生成可读的预览文件。

示例

如果一个多语言 .XML 包含命名空间,XPath 可能如下:

  • 包含原文和译文子元素的元素

    //*[local-name()='trans-unit']

  • 包含原文的元素

    *[local-name()='source']

  • 包含译文的元素

    *[local-name()='target']

这篇文章有帮助吗?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.