文件导入设置

.XML - Extensible Markup Language (TMS)

文本由 Phrase Language AI 从英语机器翻译而得。

XML文件格式并不设计用于翻译,需要额外的设置以成功导入。

默认设置用星号(*)标记,将导入所有XML元素以进行翻译。导入选项可用于更改导入行为。

AI服务在识别.XML文件格式问题方面非常有效。

文件类型

  • .XML

导入选项

普通导入规则

  • 元素

    仅导入选定的元素(例如:名称、标题、段落)。星号(*)导入所有元素。

  • 属性

    仅导入选定的属性(例如:名称、标题、段落)。星号(*)导入所有属性。

  • 可翻译的行内元素

    如果选择了自动识别行内元素选项,所有可翻译文本中的元素将作为可译的行内元素导入。

  • 不可翻译的行内元素

    选定的行内元素名称、标题、段落将被转换为标签,内容将不可翻译。

    重要

    标签相关的问题是导出错误的常见原因(例如:文件无法生成),尤其是对于如电子表格(基于MS Excel)和.XML等文件类型。在导出文件之前,通过运行质量保证检查,始终确保标签和格式正确。

  • 自动识别内联元素

    文本节点的邻近元素将自动转换为行内标签。

  • 元素(作为HTML格式处理)

    选定的元素代码作为.HTML处理。.HTML导入设置,如保留空格换行标签(<br/>)创建新段落可用于这些元素。

    当选定元素值包含.HTML标记时,请使用此选项。除非另有说明,否则不适用于选定元素的子元素。

  • 锁定元素

    选定的元素将作为已锁定导入。

  • 锁定属性

    选定的属性将作为已锁定导入。

  • 解析 ICU 信息

    ICU 信息会自动转换为标签。带有 ICU 消息的文件不能包含任何行内元素。

  • 导入 XML 字符实体

    DTD声明中的XML实体将被导入以进行翻译。

  • XML 断句

    如果不需要分段,请取消选择。

  • 导入备注

    如果元素被处理为 HTML,如 元素(处理为 HTML) 选项所示,则注释不会被导入。

  • 转换为 Phrase TMS 标签 

    应用正则表达式将指定文本转换为标签。

  • 转换为字符实体

    在输出文件中输入字符引用列表(用逗号分隔)。

    例如:

    如果需要引号("),它们将表示为 &quot;,字符 Σ 将表示为 &#x3A3;,使用 &quot;,&#x3A3;&< 始终导出为 &amp;&lt;

XML 设置使用 XPath

使用 XPath 查询语言可以创建复杂的导入规则和一些在普通导入规则中不可用的附加功能。

XPath 表达式应定义要翻译的元素和/或属性的文本/值,而不是实际的文本节点。

建议在使用之前熟悉 XPath。

对于超过 10,000 个 XML 元素的文件,上下文注释上下文键最大目标长度 将不会被处理。

  • 上下文键

    如果适用,则构成翻译记忆库上下文匹配(101% 匹配)。

  • 上下文注释

    导入每个元素的元素或上下文属性。

  • 译文长度最大值

    导入元素或每个元素的译文最大长度。每个句段的字符限制显示在编辑器内的上下文注释窗口中。所有超出限制的字符都会被标红。

  • 保留空白

    保持为空以保留元素中的空格。应用 xml:whitespace='preserve'. //* 以保留所有元素中的所有空格,或使用任意 XPath 表达式。

带有 XSLT 样式表的 HTML 预览

XSLT 语言(可扩展样式表语言转换)可用于将 .XML 文档转换为 .HTML 格式,以便于 上下文预览。因此,通过 预览翻译文档 菜单中下载的预览文件带有 HTML 扩展名。Phrase 目前支持 XSLT 2.0。

用于预览的 XSLT 必须基于目标而不是源。

点击 选择文件 导入样式表。

点击 下载 XSLT 在文件导入后下载样式表。

XML 文件中的 CDATA

CDATA表示字符数据,定义为不被解析器处理但被识别为标记的文本块。预定义实体如&lt;, &gt;&amp;需要输入,通常在标记中难以阅读。在这种情况下,可以使用CDATA部分。

如果CDATA包含嵌入的.HTML,则相应的XML元素应列在元素(作为HTML处理)下。

如果源文件包含CDATA并且使用了段XML,则CDATA将添加到完成文件中的每个段落。

只有在有明确的段落分隔指示(如标点或空格)时,CDATA才会被分段。

源:

<text><![CDATA[可译文本A。可译文本B。]]></text>

目标:

<text><![CDATA[可译文本A。]]><![CDATA[ ]]><![CDATA[可译文本B。]]></text>

完成的文件是有效的.XML,XML查看器将正确显示文本为可译文本A。可译文本B

应用程序特定设置

Wordpress XML

Wordpress XML的推荐设置:

  • XML

    X路径

  • 元素和属性

    //*[local-name()='encoded']|//description|//title

  • 元素(作为HTML格式处理)

    //*[local-name()='encoded']|//description|//title

  • 转换为 Phrase 标记

    (\[[^\]]++\])++

HTML设置下选择保留空格

多语言XML

多语言文件作为多个双语作业导入,语言在导入前进行映射。它们在作业表中表示为multilingual_xml.png。如果导入到多个目标语言中,完成文件由所有目标语言组成。

短语支持具有源和目标元素的XML文件,即使目标为空,所有段落也都存在。当源语和目标语的断句不同,源语的断句是决定性的。

单个语言元素必须都是同一 trans-unit 元素的后代,且一种语言不能包含在另一种语言中。源语和目标语的内容不能存储在属性值中。如果多个元素匹配 trans-unit 元素内的源语或目标语的 XPath,则仅导入第一个进行翻译。

  • 创建 工作 时,请在应用导入选项之前从 多语言 XML 面板中选择 文件类型。如果未指定,文件将作为标准 .XML 导入。

  • 源 .XML 文件的标签内容可以通过点击 展开标签工具 菜单下可视化,并通过点击 F2 进行编辑。

例如:

从英语到德语和法语的部分翻译文本示例。所有 <tuv lang="en"><tuv lang="de"><tuv lang="fr"> 都是同一 <tu> 元素的子元素。

<?xml version="1.0" encoding="utf-8"?>
<root>
不可翻译的文本。
<tu note="context note" key="ID 254" maxlen="16"> 
  <tuv lang="en">
    <seg>第一个句段。</seg>
  </tuv>
  <tuv lang="de">
    <seg>第一句段</seg>
  </tuv>
  <tuv lang="fr">
    <seg></seg>
  </tuv>
</tu>
<tu note="another context note" key="ID 255" maxlen="18"> 
  <tuv lang="en">
    <seg>第二个句段。</seg>
  </tuv>
  <tuv lang="de">
    <seg></seg>
  </tuv>
  <tuv lang="fr">
    <seg></seg>
  </tuv>
</tu>
</root>

导入选项

对于多语言 .XML 文件的导入,必须使用 XPath 查询语言。请参见上面的示例以供参考。XPath 表达式定义了文本/值应翻译的元素,而不是实际的文本节点。

  • 包含原文和译文子元素的元素

    //tu

  • 包含原文的元素

    tuv[@lang='en']/seg(与父元素 //tu 相关)

  • 包含译文的元素

    tuv[@lang='de']/seg(与 pa上下文注释 rent 元素 //tu 相关)

  • 包含译文的元素

    tuv[@lang='fr']/seg(与父元素 //tu 相关)

  • 不可翻译的行内元素

    源或目标中的所有元素被视为可译的内联元素,除非在此处指定为非可译的内联元素。

  • 转换为 Phrase TMS 标签 

    应用正则表达式将指定文本转换为标签。

  • 上下文键

    指定一个上下文键,该键与段落一起保存到 翻译记忆库 中,并用于匹配上下文。

  • 上下文注释

    导入每个元素的元素或上下文属性。

  • 译文长度最大值

    导入元素或每个元素的最大目标长度

  • 转换为字符实体

    在输出文件中输入字符引用列表(用逗号分隔)。

    例如:

    如果需要引号("),它们将表示为 &quot;,字符 Σ 将表示为 &#x3A3;,使用 &quot;,&#x3A3;&< 始终导出为 &amp;&lt;

  • 解析 ICU 信息

    ICU 信息会自动转换为标签。带有 ICU 消息的文件不能包含任何行内元素。

  • 使用 HTML 子过滤器 

    导入文件中包含的 HTML 标签。标签可以与 HTML 文件导入设置一起使用。段落标签 <p> 将创建新段,即使 句段多语言 XML 未被选中。

  • 切分多语言 XML 文件

    文本是通过一般的 断句规则 进行分段,而不是每个单元一个段。

    注意

    句段多语言 XML 应用到包含目标文本的文件可能会导致源中的段数与目标中的段数不同。

  • 设置非空译文的句段状态 

    选择默认确认状态,以及是否将已确认的段自动添加到 TM。

示例:

如果多语言 .XML 包含命名空间,XPath 可能如下:

  • 包含原文和译文子元素的元素

    //*[local-name()='trans-unit']

  • 包含原文的元素

    *[local-name()='source']

  • 包含译文的元素

    *[local-name()='target']

这篇文章有帮助吗?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.