La transcripción de audio toma audio como entrada y utiliza el reconocimiento automático de voz y la identificación automática de hablantes para generar un texto. Específicamente, el sistema utiliza una instancia propietaria del sistema de reconocimiento automático de voz OpenAI Whisper.
Se pueden crear bases de términos monolingües en la página de para mejorar la precisión de la transcripción de IA para términos especializados o difíciles. Las bases de términos se comparten automáticamente con todos los usuarios de la misma organización en modo de solo lectura.
Phrase Studio consume Horas de localización de video.
Casos de uso
-
Una entrevista con un cliente de 45 minutos grabada como un archivo MP4.
Se genera una transcripción de texto con identificación de hablantes que se puede utilizar para crear un estudio de caso y extraer citas para un sitio web.
Para crear un proyecto de transcripción de audio, sigue estos pasos:
-
Desde Phrase Studio, haz clic en Nuevo proyecto.
Se abrirá la página de .
-
Arrastra un archivo al campo de carga o haz clic en Cargar archivo para localizar un archivo en tu sistema.
El archivo cargado se mostrará.
-
Opcionalmente, especifica el número de en el archivo cargado.
-
Para establecer el número de hablantes manualmente, abre el menú desplegable y selecciona un valor del 1 al 5. Si el archivo incluye más de cinco hablantes, utiliza la opción predeterminada .
-
-
Proporciona un nombre para el proyecto y establece la visibilidad del proyecto según sea necesario:
-
Los nuevos proyectos son públicos por defecto. Los proyectos públicos son visibles para todos los usuarios en la organización que tienen acceso a Studio.
-
Desmarca la opción para crear un proyecto privado que sea visible solo para el propietario del proyecto. Un proyecto privado aún se puede compartir con usuarios seleccionados si es necesario.
-
-
Selecciona manualmente el o habilita para que se detecte automáticamente.
-
Si es necesario, en , habilita y selecciona el/los idioma(s) al que se traducirá el archivo.
-
El motor de traducción es configurable.
-
Si se selecciona , el archivo será transcrito, traducido y doblado inmediatamente sin la oportunidad de verificar la traducción de antemano.
-
-
Selecciona un para determinar las reglas de visualización de subtítulos.
Habilita para seleccionar un perfil para cada idioma.
-
Opcionalmente, habilita para seleccionar las pronunciaciones existentes y pares relacionados para los flujos de trabajo de doblaje.
-
Si es necesario, configura opciones adicionales:
-
Abre la sección para importar archivos de subtítulos existentes en formato SRT o VTT para los idiomas de origen y destino.
El sistema omitirá la transcripción automática de audio con identificación de hablantes y alineará los subtítulos existentes con el video. Los usuarios necesitan crear y asignar hablantes manualmente, ya que los archivos SRT/VTT no incluyen información sobre los hablantes.
-
Abre la sección para anular la configuración a nivel de cuenta y seleccionar el preferido a nivel de proyecto.
-
Abre la sección para seleccionar un glosario existente o agregar términos que se utilizarán para detectar y hacer coincidir palabras que suenan similares durante la transcripción.
-
Abre la sección para seleccionar los resúmenes y análisis deseados que se generarán para la grabación subida y los modelos de IA pertinentes.
-
-
Haz clic en Crear proyecto.
El archivo se habrá subido y se mostrará en la página .
Haz clic en el nombre de la grabación para abrirla en el editor y verla en las pestañas y . Ambos textos pueden ser editados si es necesario.
Haz clic en Descargar para seleccionar la transcripción y las traducciones para descargarlas en tu sistema. También es posible descargar pistas de solo audio en formato MP3.
Extrae análisis estructurados y significativos como resúmenes, sentimientos, indicadores de calidad o problemas de seguridad de los subtítulos utilizando modelos de IA.
Los análisis creados en la página de se comparten automáticamente con todos los usuarios de la misma organización en modo solo lectura.
Casos de uso
-
Resume las llamadas de soporte al cliente o identifica comunicaciones potencialmente inseguras o de baja calidad. Phrase Studio devuelve un resumen y marca secciones para revisión.
Detecta y etiqueta diferentes hablantes en un archivo de audio para transcripciones y subtítulos más claros.
La identificación automática de hablantes no está disponible para proyectos con archivos de subtítulos importados.
Casos de uso
-
Un podcast con múltiples participantes se procesa y cada hablante es etiquetado automáticamente (por ejemplo, «Hablante 1», «Hablante 2»).
Haz clic en Gestionar Hablantes en el menú para editar el nombre del hablante o agregar otros hablantes.
Haz clic en la opción Combinado/Hablantes en la parte inferior del editor para alternar entre una única forma de onda y formas de onda individuales para cada hablante. Cuando se detectan múltiples hablantes, los segmentos se pueden arrastrar dentro de una fila para reflejar el habla superpuesta, o mover a otra fila para cambiar el hablante asignado.