文件导入设置

.XML —— 可扩展标记语言 (TMS))

文本由 Phrase Language AI 从英语机器翻译而得。

.XML文件格式不是为翻译设计的,成功导入需要额外的设置。

默认设置用星号 (*) 标记,将导入所有 XML 元素进行翻译。导入选项可用于更改导入行为。

AI 聊天机器人可以非常有效地识别基于 .XML 的文件格式问题。

文件类型

  • .XML

导入选项

普通导入规则

  • 元素

    只导入选定的元素(即名称、标题、段落)。星号(*)导入所有元素。

  • 属性

    只导入选定的属性(即名称、标题、段落)。星号(*)导入所有属性。

  • 可译的行内元素

    如果选择了自动识别行内元素选项,可译的文本中的所有元素都将作为可译的行内元素导入。

  • 非译的行内元素

    选定的行内元素名称、标题、段将被转换成tags,而内容是不可译的。

  • 自动识别行内元素

    文本节点相邻的元素将自动转换为行内tags。

  • 元素(以 HTML 格式处理)

    选定的元素代码被处理为.HTML。。HTML导入设置例如保留空格换行标签(<br/>)创建新句段可用于这些元素。

    当选定的元素值包含 .HTML 标记时,使使用此选项。除非另有规定,否则它不适用于所选元素的子元素。

  • 已锁定的元素

    所选元素将作为已锁定元素导入。

  • 已锁定的属性

    所选属性将作为已锁定导入。

  • 解析 ICU 信息

    ICU 信息会自动转换为 tags。带有 ICU 信息的文件不能包含任何行内元素。

  • 导入 XML 实体

    DTD 声明中的 XML 实体将被导入进行翻译。

  • 句段 XML

    如果不需要断句,请取消选择。

  • 导入备注

    如果如元素(处理为HTML)选项中所示将元素处理为HTML,则不会导入备注。

  • 转换为 Phrase TMS 标签 

    应用正则表达式将特定文本转换为 tags。

  • 转换为字符实体

    在输出文件中输入字符参考列表(用逗号分隔)。

    例如:

    如果需要引号("),它们将被表示为 &quot; ,字符Σ将被表示为 &quot;x3A3;使用 &quot; ,&#x3A3;&quot; 总是分别导出为 &amp;&lt;

使用XPath进行XML设置

使用XPath查询语言可以创建复杂的导入规则和普通导入规则所不具备的一些附加功能。

XPath 表达式应定义应翻译其文本/值的元素和/或属性,而不是实际的文本节点。

使用前请熟悉XPath。

含有10,000个XML元素的文件将不会处理上下文注释上下文键和译文长度上限

  • 上下文键

    如果适用,构成翻译记忆库上下文(101%匹配)。

  • 上下文注释

    为每个元素导入元素或上下文属性。

  • 译文长度最大值

    导入元素或每个元素译文的最大长度。每个句段的字符限制显示在编辑器内的上下文注释窗格上。任何超出限制的字符都会以红色突出显示。

  • 保留空格

    保持 empty 以在元素中保留空格。应用xml:whitespace='preserve'。//*在所有元素中保留所有空格,或使用任意的XPath表达式。

用XSLT样式表预览HTML

XSLT语言(可扩展的样式表语言转换)可用于将.XML文档转换为.HTML格式,供预览上下文。因此,通过文档菜单的预览翻译下载的预览文件带有HTML扩展名。phrase 目前支持 XSLT 2.0。

单击选择文件以导入样式表。

文件导入后点击下载XSLT即可下载样式表。

CDATA 格式 XML 文件

CDATA 指的是字符数据,被定义为未经解析器处理但被识别为标记的文本块。预定义实体,例如 &lt;、 &gt;&amp; 需要输入,通常在标记中难以读取。在这种情况下,可以使用 CDATA 部分。

如果 CDATA 包含嵌入式 .HTML,则相应的 XML 元素应列在元素(处理为 HTML)下。

如果原文/原文文件包含CDATA并且使用了句段XML,则为已完成文件中的每个句段添加CDATA。

只有当标点或间距等句段被清空时,CDATA 才会被断句。

原文:

<text><![CDATA[可译的文本A. 可译的文本B.]]></text>

译文:

<text><![CDATA[可译文本A.]]><![CDATA[ ]]><![CDATA[可译文本B.]]></text>

已完成文件是有效的.XML,XML查看器将正确显示该文本为可译的文本A

特定应用程序设置

Wordpress XML

WordPress XML 推荐设置:

  • XML

    XPath

  • 元素和属性

    //*[local-name()='encoded']|//description|//title

  • 元素(以 HTML 格式处理)

    //*[local-name()='encoded']|//description|//title

  • 转换为 phrase tags

    (\[[^\]]++\])++

HTML设置下选择保留空格

Multilingual XML

多语言文件作为多个双语工作导入,导入前先映射语言。它们在工作表中以 multilingual_xml.png 表示。已完成文件如被导入若干译文语言,则是由所有译文语言组成的。

phrase 支持的 XML 文件,即使译文为empty,所有段落的原文/源语和译文元素都存在。原文/源语和译文断句不同时,则确定原文/源语断句。

单个语言元素都必须是同一跨单位元素的后代,并且一种语言不能包含在另一种语言中。原文/源语和译文内容不能存储在属性值中。如果多个元素与跨单元元素中原文/源语或译文的 X 匹配,则仅导入第一个进行翻译。

  • 创建工作时,在应用导入选项之前,从文件类型窗格中选择多语言 XML。如果未指定,该文件将作为标准 .XML 导入。

  • 原文/源语.XML文件的标签内容可在编辑器中通过单击工具菜单下的展开tags可视化,并单击F2进行编辑。

例如:

从英语到德语和法语的部分译文样本。所有 <tuv lang="en"><tuv lang="de"><tuv lang="fr"> 都是同一 <tu> 元素的子元素。

<?xml version="1.0" encoding="utf-8"?>
<root>
不是可译的文本。
<tu note="context note" key="ID 254" maxlen="16"> 
  <tuv lang="en">
    <seg>第一句段。</seg>
  </tuv>
  <tuv lang="de">
    <seg>前面句段</seg>
  </tuv>
  <tuv lang="fr">
    <seg></seg>
  </tuv>
</tu>
<tu 注释="其他上下文注释"键="ID 255" maxlen="18"> 
  <tuv lang="en">
    <seg>第二句段。</seg>
  </tuv>
  <tuv lang="de">
    <seg></seg>
  </tuv>
  <tuv lang="fr">
    <seg></seg>
  </tuv>
</tu>
</root>

导入选项

导入多语言.XML文件必须使用XPath查询语言。见上文示例以供参考。XPath 表达式定义应翻译文本/值的元素,而不是实际的文本节点。

  • 包含原文和译文子元素的元素

    //tu

  • 包含原文/源语文本的元素

    tuv[@lang='en']/seg(关于父元素//tu

  • 包含译文的元素

    tuv[@lang='de']/seg(关于pa上下文注释租金元素//tu

  • 包含译文的元素

    tuv[@lang='fr']/seg(关于父元素//tu

  • 非译的行内元素

    除非此处指定为非译元素内元素,否则原文/源语或译文中的所有元素都被认为是可译的内元素。

  • 转换为 Phrase TMS 标签 

    应用正则表达式将特定文本转换为 tags。

  • 上下文键

    指定与句段一起保存到翻译记忆库并用于匹配上下文的上下文键。

  • 上下文注释

    为每个元素导入元素或上下文属性。

  • 译文长度最大值

    导入元素或每个元素译文的最大长度

  • 转换为字符实体

    在输出文件中输入字符参考列表(用逗号分隔)。

    例如:

    如果需要引号("),它们将被表示为 &quot; ,字符Σ将被表示为 &quot;x3A3;使用 &quot; ,&#x3A3;&quot; 总是分别导出为 &amp;&lt;

  • 解析 ICU 信息

    ICU 信息会自动转换为 tags。带有 ICU 信息的文件不能包含任何行内元素。

  • 使用 HTML 子过滤器 

    导入文件中包含的 HTML tags。tags 可用于 HTML 文件导入设置。句段标记<p>将创建新句段,即使未选择句段多语言XML

  • 切分多语言 XML 句段

    文本按一般断句规则断句,而不是每个单元格一个句段。

    注意事项

    对包含译文的文件应用句段多语言 XML 可能会导致原文/源语句段的数量与译文不同。

  • 设置非空译文的句段状态 

    选择默认确认状态以及是否已确认的句段是否自动添加到翻译记忆库。

例如

如多语言语言 .XML 包含名称空间,X 路径可能是:

  • 包含原文和译文子元素的元素

    //*[local-name()='trans-unit']

  • 包含原文/源语文本的元素

    *[local-name()='source']

  • 包含译文的元素

    *[local-name()='target']

这篇文章有帮助吗?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.