音声転写（スタジオ）

本コンテンツはPhrase Language AIの機械翻訳により、英語から翻訳されています。

音声転写は音声を入力として受け取り、自動音声認識と自動話者識別を使用してテキスト出力を生成します。具体的には、システムはOpenAI Whisper自動音声認識システムの独自インスタンスを使用します。

専門的または難しい用語のAI転写精度を向上させるために、設定ページで単言語用語ベースを作成できます。用語ベースは、同じ組織のすべてのユーザーと読み取り専用モードで自動的に共有されます。

Phrase Studioはビデオローカリゼーション時間を消費します。

使用例

45分の顧客インタビューがMP4ファイルとして記録されました。

話者識別を伴うテキスト転写が生成され、ケーススタディを作成し、ウェブサイト用の引用を引き出すために使用できます。

音声転写プロジェクトを作成するには、次の手順に従ってください：

Phrase Studioから、新しいプロジェクトをクリックします。

新しいプロジェクトを作成ページが開きます。
ファイルをアップロードフィールドにドラッグするか、ファイルをアップロードをクリックしてシステム上のファイルを見つけます。

アップロードされたファイルが表示されます。
オプションで、アップロードされたファイルの話者の数を指定します。
- 話者の数を手動で設定するには、ドロップダウンを開き、1から5の値を選択します。ファイルに5人以上の話者が含まれている場合は、デフォルトの自動検出オプションを使用します。
プロジェクトの名前を提供し、必要に応じてプロジェクトの可視性を設定します：
- 新しいプロジェクトはデフォルトで公開です。公開プロジェクトは、スタジオにアクセスできる組織内のすべてのユーザーに表示されます。
- 公開プロジェクトの選択を解除して、プロジェクトオーナーにのみ表示されるプライベートプロジェクトを作成します。プライベートプロジェクトは、必要に応じて選択したユーザーと共有することもできます。
手動でソース言語を選択するか、自動検出ソース言語を有効にして自動検出を行います。
必要に応じて、ローカリゼーションオプションの下で、字幕を翻訳するを有効にし、翻訳するファイルの言語を選択します。
- 翻訳エンジンは設定可能です。
- ターゲット言語にダブするが選択されている場合、ファイルは転写され、翻訳され、ダブされるため、事前に翻訳を確認する機会はありません。
字幕表示ルールを決定するために、字幕プロファイルを選択します。

特定の言語に対して異なる字幕プロファイルを使用するを有効にすることで、各言語のプロファイルを選択します。
オプションで、テキスト読み上げの精度を向上させるために発音ルールを適用するを有効にし、ダブ作業フロー用の既存の発音と関連ペアを選択します。
必要に応じて、追加オプションを設定します：
- 字幕セクションを開いて、ソース言語とターゲット言語の両方のSRTまたはVTT形式の既存の字幕ファイルをインポートします。
  
  システムは、スピーカー識別を伴う自動音声転写をスキップし、既存の字幕をビデオに合わせます。ユーザーは、SRT/VTTファイルにスピーカー情報が含まれていないため、スピーカーを手動で作成して割り当てる必要があります。
- 自動翻訳セクションを開いて、アカウントレベルの設定を上書きし、プロジェクトレベルで好みの翻訳エンジンを選択します。
  - フレーズ言語AIが選択されている場合、MTプロファイルと翻訳メモリのドロップダウンメニューが表示されます。
    
    利用可能なMTプロファイルの1つを選択し、オプションでTMを選択します。
  - AI翻訳エージェントが選択されている場合、翻訳メモリのドロップダウンメニューが表示されます。
    
    利用可能なTMの1つを選択します。
- リソースセクションを開いて、既存の用語ベースを選択するか、転写中に類似音の単語を検出して一致させるために使用される用語を追加します。
- AI生成の要約と洞察セクションを開いて、アップロードされた録音のために生成される希望の要約と洞察、および関連するAIモデルを選択します。
プロジェクトを作成をクリックします。

ファイルはアップロードされ、マイ録音ページに表示されます。

録音名をクリックしてエディタで開き、文字起こしおよび翻訳タブで表示します。必要に応じて両方のテキストを編集できます。

ダウンロードをクリックして、文字起こしと翻訳を選択し、システムにダウンロードします。MP3形式で音声のみのトラックをダウンロードすることも可能です。

AI要約

AIモデルを使用して、字幕から要約、感情、品質フラグ、または安全性の問題などの構造化された意味のある洞察を抽出します。

設定ページで作成された洞察は、同じ組織のすべてのユーザーと自動的に読み取り専用モードで共有されます。

使用例

顧客サポートの電話を要約するか、潜在的に安全でないまたは低品質のコミュニケーションを特定します。Phrase Studioは要約を返し、レビューのためにセクションにフラグを付けます。

話者の識別

音声ファイル内の異なる話者を検出し、ラベル付けして、より明確な文字起こしと字幕を提供します。

インポートされた字幕ファイルを持つプロジェクトでは、自動話者識別は利用できません。

使用例

複数の参加者がいるポッドキャストが処理され、各話者が自動的にタグ付けされます（例："話者1"、"話者2"）。

文字起こしメニューの下にある話者の管理をクリックして、話者名を編集するか、他の話者を追加します。

エディタの下部にある統合/話者トグルを使用して、単一の波形と各話者の個別の波形を切り替えます。複数の話者が検出されると、セグメントは行内でドラッグして重なり合う発言を反映させたり、別の行に移動して割り当てられた話者を変更したりできます。