音频转录（工作室）

文本由 Phrase Language AI 从英语机器翻译而得。

音频转录将音频作为输入，使用自动语音识别和自动说话人识别生成文本输出。具体来说，该系统使用的是OpenAI Whisper自动语音识别系统的专有实例。

可以在设置页面创建单语术语库，以提高AI转录对专业或困难术语的准确性。术语库会以只读模式自动与同一组织的所有用户共享。

Phrase Studio消耗视频本地化小时数。

使用案例

一个45分钟的客户访谈录制为MP4文件。

生成的文本转录包含说话人识别，可用于创建案例研究和提取网站引用。

要创建音频转录项目，请按照以下步骤操作：

在Phrase Studio中，点击新建项目。

创建新项目页面打开。
将文件拖到上传字段中，或点击上传文件以在系统中找到文件。

上传的文件将显示。
可选地，指定上传文件中的说话人数量。
- 要手动设置说话人数，请打开下拉菜单并选择1到5之间的值。如果文件中包含超过五个说话人，请使用默认的自动检测选项。
为项目提供一个名称，并根据需要设置项目可见性：
- 新项目默认是公开的。公开项目对所有有权访问工作室的组织用户可见。
- 取消选择公共项目以创建仅对项目所有者可见的私人项目。如果需要，私人项目仍然可以与选定的用户共享。
手动选择源语言或启用自动检测源语言以进行自动检测。
如有需要，在本地化选项下启用翻译字幕并选择要翻译成的语言。
- 翻译引擎是可配置的。
- 如果选择了配音到目标语言，文件将被转录、翻译并立即配音，没有机会提前检查翻译。
选择一个字幕配置文件以确定字幕显示规则。

启用为特定语言使用不同的字幕配置文件以为每种语言选择一个配置文件。
可选地，启用应用发音规则以提高文本到语音的准确性以选择现有的发音和相关配对用于配音工作流。
如有需要，配置其他选项：
- 打开字幕部分以导入现有的字幕文件，格式为 SRT 或 VTT，适用于源语言和目标语言。
  
  系统将跳过带有说话者识别的自动音频转录，并将现有字幕与视频对齐。用户需要手动创建和分配说话者，因为 SRT/VTT 文件不包含说话者信息。
- 打开自动翻译部分以覆盖账户级设置，并在项目级选择首选的翻译引擎。
  - 如果选择了短语语言 AI，将显示机器翻译配置文件和翻译记忆库下拉菜单。
    
    选择可用的机器翻译配置文件之一，并可选地选择一个翻译记忆库。
  - 如果选择了 AI 翻译代理，将显示翻译记忆库下拉菜单。
    
    选择可用的翻译记忆库之一。
- 打开资源部分以选择现有的术语库或添加将在转录过程中用于检测和匹配相似发音的词汇。
- 打开 AI 生成的摘要和见解部分以选择将为上传的录音生成的所需摘要和见解，以及相关的 AI 模型。
点击创建项目。

文件已上传，并显示在我的录音页面上。

点击录音名称以在编辑器中打开它，并在转录和翻译标签中查看。如果需要，两个文本都可以编辑。

点击下载以选择转录和翻译进行下载到您的系统。也可以以 MP3 格式下载仅音频轨道。

AI 摘要

使用 AI 模型从字幕中提取结构化和有意义的见解，例如摘要、情感、质量标记或安全问题。

在设置页面中创建的见解会自动以只读模式与同一组织的所有用户共享。

使用案例

总结客户支持电话或识别潜在的不安全或低质量的沟通。Phrase Studio 返回摘要并标记需要审查的部分。

说话人识别

检测并标记音频文件中的不同说话人，以便更清晰的转录和字幕。

导入字幕文件的项目不支持自动说话人识别。

使用案例

一个有多个参与者的播客被处理，每个说话人会自动标记（例如，"说话人 1"，"说话人 2"）。

在转录菜单下点击管理说话人以编辑说话人名称或添加其他说话人。

在编辑器底部使用合并/说话人切换按钮在单个波形和每个说话人的单独波形之间切换。当检测到多个说话人时，可以在一行内拖动段落以反映重叠的讲话，或移动到另一行以更改分配的说话人。