音频转录将音频作为输入,使用自动语音识别和自动说话人识别生成文本输出。具体来说,该系统使用的是OpenAI Whisper自动语音识别系统的专有实例。
可以在页面创建单语术语库,以提高AI转录对专业或困难术语的准确性。术语库会以只读模式自动与同一组织的所有用户共享。
Phrase Studio消耗视频本地化小时数。
使用案例
-
一个45分钟的客户访谈录制为MP4文件。
生成的文本转录包含说话人识别,可用于创建案例研究和提取网站引用。
要创建音频转录项目,请按照以下步骤操作:
-
在Phrase Studio中,点击新建项目。
页面打开。
-
将文件拖到上传字段中,或点击上传文件以在系统中找到文件。
上传的文件将显示。
-
可选地,指定上传文件中的数量。
-
要手动设置说话人数,请打开下拉菜单并选择1到5之间的值。如果文件中包含超过五个说话人,请使用默认的选项。
-
-
为项目提供一个名称,并根据需要设置项目可见性:
-
新项目默认是公开的。公开项目对所有有权访问工作室的组织用户可见。
-
取消选择 以创建仅对项目所有者可见的私人项目。如果需要,私人项目仍然可以与选定的用户共享。
-
-
手动选择 或启用 以进行自动检测。
-
如有需要,在 下启用 并选择要翻译成的语言。
-
选择一个 以确定字幕显示规则。
启用 以为每种语言选择一个配置文件。
-
可选地,启用 以选择现有的 发音 和相关配对用于配音工作流。
-
如有需要,配置其他选项:
-
打开 部分以导入现有的字幕文件,格式为 SRT 或 VTT,适用于源语言和目标语言。
系统将跳过带有说话者识别的自动音频转录,并将现有字幕与视频对齐。用户需要手动创建和分配说话者,因为 SRT/VTT 文件不包含说话者信息。
-
打开 部分以覆盖账户级设置,并在项目级选择首选的 。
-
打开 部分以选择现有的术语库或添加将在转录过程中用于检测和匹配相似发音的词汇。
-
打开 部分以选择将为上传的录音生成的所需摘要和见解,以及相关的 AI 模型。
-
-
点击 创建项目。
文件已上传,并显示在 页面上。
点击录音名称以在编辑器中打开它,并在 和 标签中查看。如果需要,两个文本都可以编辑。
点击 下载 以选择转录和翻译进行下载到您的系统。也可以以 MP3 格式下载仅音频轨道。