音声転写は音声を入力として受け取り、自動音声認識と自動話者識別を使用してテキスト出力を生成します。具体的には、システムはOpenAI Whisper自動音声認識システムの独自インスタンスを使用します。
専門的または難しい用語のAI転写精度を向上させるために、ページで単言語用語ベースを作成できます。用語ベースは、同じ組織のすべてのユーザーと読み取り専用モードで自動的に共有されます。
Phrase Studioはビデオローカリゼーション時間を消費します。
使用例
-
45分の顧客インタビューがMP4ファイルとして記録されました。
話者識別を伴うテキスト転写が生成され、ケーススタディを作成し、ウェブサイト用の引用を引き出すために使用できます。
音声転写プロジェクトを作成するには、次の手順に従ってください:
-
Phrase Studioから、新しいプロジェクトをクリックします。
ページが開きます。
-
ファイルをアップロードフィールドにドラッグするか、ファイルをアップロードをクリックしてシステム上のファイルを見つけます。
アップロードされたファイルが表示されます。
-
オプションで、アップロードされたファイルのの数を指定します。
-
話者の数を手動で設定するには、ドロップダウンを開き、1から5の値を選択します。ファイルに5人以上の話者が含まれている場合は、デフォルトのオプションを使用します。
-
-
プロジェクトの名前を提供し、必要に応じてプロジェクトの可視性を設定します:
-
新しいプロジェクトはデフォルトで公開です。公開プロジェクトは、スタジオにアクセスできる組織内のすべてのユーザーに表示されます。
-
の選択を解除して、プロジェクトオーナーにのみ表示されるプライベートプロジェクトを作成します。プライベートプロジェクトは、必要に応じて選択したユーザーと共有することもできます。
-
-
手動でを選択するか、を有効にして自動検出を行います。
-
必要に応じて、の下で、を有効にし、翻訳するファイルの言語を選択します。
-
字幕表示ルールを決定するために、を選択します。
特定の言語に対して異なる字幕プロファイルを使用することで、各言語のプロファイルを選択します。
-
オプションで、テキスト読み上げの精度を向上させるためにを有効にし、ダブ作業フロー用の既存の発音と関連ペアを選択します。
-
必要に応じて、追加オプションを設定します:
-
セクションを開いて、ソース言語とターゲット言語の両方のSRTまたはVTT形式の既存の字幕ファイルをインポートします。
システムは、スピーカー識別を伴う自動音声転写をスキップし、既存の字幕をビデオに合わせます。ユーザーは、SRT/VTTファイルにスピーカー情報が含まれていないため、スピーカーを手動で作成して割り当てる必要があります。
-
セクションを開いて、アカウントレベルの設定を上書きし、プロジェクトレベルで好みのを選択します。
-
セクションを開いて、既存の用語ベースを選択するか、転写中に類似音の単語を検出して一致させるために使用される用語を追加します。
-
セクションを開いて、アップロードされた録音のために生成される希望の要約と洞察、および関連するAIモデルを選択します。
-
-
プロジェクトを作成をクリックします。
ファイルはアップロードされ、ページに表示されます。
録音名をクリックしてエディタで開き、およびタブで表示します。必要に応じて両方のテキストを編集できます。
ダウンロードをクリックして、文字起こしと翻訳を選択し、システムにダウンロードします。MP3形式で音声のみのトラックをダウンロードすることも可能です。
AIモデルを使用して、字幕から要約、感情、品質フラグ、または安全性の問題などの構造化された意味のある洞察を抽出します。
ページで作成された洞察は、同じ組織のすべてのユーザーと自動的に読み取り専用モードで共有されます。
使用例
-
顧客サポートの電話を要約するか、潜在的に安全でないまたは低品質のコミュニケーションを特定します。Phrase Studioは要約を返し、レビューのためにセクションにフラグを付けます。
音声ファイル内の異なる話者を検出し、ラベル付けして、より明確な文字起こしと字幕を提供します。
インポートされた字幕ファイルを持つプロジェクトでは、自動話者識別は利用できません。
使用例
-
複数の参加者がいるポッドキャストが処理され、各話者が自動的にタグ付けされます(例:"話者1"、"話者2")。
メニューの下にある話者の管理をクリックして、話者名を編集するか、他の話者を追加します。
エディタの下部にある統合/話者トグルを使用して、単一の波形と各話者の個別の波形を切り替えます。複数の話者が検出されると、セグメントは行内でドラッグして重なり合う発言を反映させたり、別の行に移動して割り当てられた話者を変更したりできます。