Transcripción de audio (Studio)

El contenido se traduce automáticamente del inglés por Phrase Language AI.

La transcripción de audio toma audio como entrada y utiliza el reconocimiento automático de voz y la identificación automática de hablantes para generar un texto. Específicamente, el sistema utiliza una instancia propietaria del sistema de reconocimiento automático de voz OpenAI Whisper.

Se pueden crear glosarios monolingües en la página de Configuración para mejorar la precisión de la transcripción de IA para términos especializados o difíciles. Las bases de términos se comparten automáticamente con todos los usuarios de la misma organización en modo de solo lectura.

Phrase Studio consume Horas de localización de video.

Casos de uso

Una entrevista con un cliente de 45 minutos grabada como un archivo MP4.

Se genera una transcripción de texto con identificación de hablantes que se puede utilizar para crear un estudio de caso y extraer citas para un sitio web.

Para crear un proyecto de transcripción de audio, sigue estos pasos:

Desde Phrase Studio, haz clic en Nuevo proyecto.

Se abrirá la página de Crear nuevo proyecto.
Arrastra un archivo al campo de carga o haz clic en Cargar archivo para localizar un archivo en tu sistema.

El archivo cargado se mostrará.
Opcionalmente, especifique el número de hablantes en el archivo cargado.
- Para establecer el número de hablantes manualmente, abra el menú desplegable y Seleccionar un valor del 1 al 5. Si el archivo incluye más de cinco hablantes, usar la opción predeterminada Detección automática.
Proporciona un nombre para el proyecto y establece la visibilidad del proyecto según sea necesario:
- Los nuevos proyectos son públicos por defecto. Los proyectos públicos son visibles para todos los usuarios en la organización que tienen acceso a Studio.
- Desmarca la opción Proyecto público para crear un proyecto privado que sea visible solo para el propietario del proyecto. Un proyecto privado aún se puede compartir con usuarios seleccionados si es necesario.
Selecciona manualmente el Idioma de origen o habilita Detección automática del idioma de origen para que se detecte automáticamente.
Si es necesario, en Opciones de localización, habilita Traducir subtítulos y selecciona el/los idioma(s) al que se traducirá el archivo.
- El motor de traducción es configurable.
- Si se selecciona Doblar a idiomas de destino, el archivo será transcrito, traducido y doblado inmediatamente sin la oportunidad de verificar la traducción de antemano.
Selecciona un perfil de subtítulos para determinar las reglas de visualización de subtítulos.

Habilita Usar diferentes perfiles de subtítulos para idiomas específicos para seleccionar un perfil para cada idioma.
De forma opcional, si quieres seleccionar las pronunciaciones existentes y pares relacionados para los flujos de trabajo de doblaje, habilita la siguiente opción: Aplicar reglas de pronunciación para mejorar la precisión de la conversión del texto a la voz.
Si es necesario, configura opciones adicionales:
- Abre la sección Subtítulos para importar archivos de subtítulos existentes en formato SRT o VTT para los idiomas de origen y destino.
  
  El sistema omitirá la transcripción automática de audio con identificación de hablantes y alineará los subtítulos existentes con el video. Los usuarios necesitan crear y asignar hablantes manualmente, ya que los archivos SRT/VTT no incluyen información sobre los hablantes.
- Abre la sección Traducción automatizada para anular la configuración a nivel de cuenta y seleccionar el motor de traducción preferido a nivel de proyecto.
  - Si se selecciona Phrase Language AI, se mostrarán los menús desplegables del Perfil de MT y la Memoria de traducción.
    
    Selecciona uno de los perfiles de MT disponibles y, opcionalmente, una TM.
  - Si se selecciona el Agente de traducción IA, se mostrará el menú desplegable de la Memoria de traducción.
    
    Selecciona una de las TM disponibles.
- Abre la sección Recursos para seleccionar un glosario existente o agregar términos que se utilizarán para detectar y hacer coincidir palabras que suenan similares durante la transcripción.
- Abre la sección Resúmenes y análisis generados por IA para seleccionar los resúmenes y análisis deseados que se generarán para la grabación subida y los modelos de IA pertinentes.
Haz clic en Crear proyecto.

El archivo se habrá subido y se mostrará en la página Mis grabaciones.

Haz clic en el nombre de la grabación para abrirla en el editor y verla en las pestañas Transcribir y Traducción. Ambos textos pueden ser editados si es necesario.

Haz clic en Descargar para seleccionar la transcripción y las traducciones para descargarlas en tu sistema. También es posible descargar pistas de solo audio en formato MP3.

Resúmenes de IA

Extrae análisis estructurados y significativos como resúmenes, sentimientos, indicadores de calidad o problemas de seguridad de los subtítulos utilizando modelos de IA.

Los análisis creados en la página de Configuración se comparten automáticamente con todos los usuarios de la misma organización en modo solo lectura.

Casos de uso

Resume las llamadas de soporte al cliente o identifica comunicaciones potencialmente inseguras o de baja calidad. Phrase Studio devuelve un resumen y marca secciones para revisión.

Identificación de hablantes

Detecta y etiqueta diferentes hablantes en un archivo de audio para transcripciones y subtítulos más claros.

La identificación automática de hablantes no está disponible para proyectos con archivos de subtítulos importados.

Casos de uso

Un podcast con múltiples participantes se procesa y cada hablante es etiquetado automáticamente (por ejemplo, «Hablante 1», «Hablante 2»).

Haz clic en Gestionar Hablantes en el menú Transcribir para editar el nombre del hablante o agregar otros hablantes.

Haz clic en la opción Combinado/Hablantes en la parte inferior del editor para alternar entre una única forma de onda y formas de onda individuales para cada hablante. Cuando se detectan múltiples hablantes, los segmentos se pueden arrastrar dentro de una fila para reflejar el habla superpuesta, o mover a otra fila para cambiar el hablante asignado.