自动评估

每个MT模型都提供自动评估。点击模型名称或中的省略号更多以查看它们。

Phrase Custom AI提供丰富的数据和先进的视觉支持，旨在提供对自定义NextMT模型质量的更深入理解：

概述选项卡提供评估结果的摘要，包含直观的可视化和关于MT模型的元数据。
- 性能比较表比较了通用与自定义NextMT模型在四个MT质量指标上的表现。该表有两个主要部分：
  - 基线性能
    
    显示Phrase NextMT和没有TM利用的自定义NextMT模型的自动MT质量分数。
  - RAG性能
    
    显示利用TM模糊匹配来调整MT输出的自动MT质量分数。
  最佳引擎列突出显示每个指标中表现最好的模型。
- 模型元数据面板提供关于评估的自定义NextMT模型的基本信息。
可视化选项卡通过甜甜圈图提供MT评估结果的图形表示，展示按质量类别评估的翻译段落的细分。
- 从顶部的下拉菜单中选择所需的MT质量指标，以将自定义NextMT模型与通用Phrase NextMT模型进行基准测试。
- 将鼠标悬停在甜甜圈图的每个类别上，以查看该类别受影响段落的百分比和数量。
评估样本选项卡展示了来自评估集的段落样本预览，显示源段落的列表及相关的基线和RAG性能分数。

当选择一个段落时，右侧面板显示：
- 基线和RAG性能的段落特定分数和质量水平指示。
- 自定义和通用NextMT模型生成的翻译输出与数据集中的参考翻译进行比较。选择显示引擎输出中的差异以突出与参考翻译的差异。