La escritura con voz es una funcionalidad de además de ahorrar tiempo facilita muchas cosas en distintos contextos, transcribir audio a texto de una conferencia, una clase magistral, un dictado o cualquier audio es sencillo si se utilizan los servicios, aplicaciones o programas que serán mencionados a continuación.
Transcripción de audio a texto
Hay una diversidad de información importante guardada en audios y que fueron grabadas en diversas situaciones, puede ser que se haya hecho una grabación de una conferencia de alguna ponencia, una exposición de la universidad, un proyecto o una presentación; puede que se se tengan entrevistas de trabajo, de artistas, de profesionales explicando un tema o de cualquier persona a la que se le hayan hecho algunas preguntas sobre un tema importante y se necesitaban guardar sus respuestas.
Puede que se quiera grabar la lectura de un libro (que no se encuentra en formato digital sino que únicamente está en físico), puede que se desee grabar una clase o que se desee tener el guión de una escena de teatro, realmente hay diversos motivos por los que se puede necesitar transcribir audio y pasar esa información de importancia a texto, sea para guardarlo en un documento de word, de power point, en Notas rápidas, para mantenerlo en el portapapeles o para editarlo de cualquier forma.
Lo complicado puede ser que un audio dure muchos minutos o varias horas y sea necesario transcribir todo eso, la escritura por supuesto, no es tan rápida para la mayoría de personas, por lo que escribir todo lo que se hable o converse en vivo así como es hecho en reuniones de Estado o en los juicios no es una opción viable, además estas personas usan la taquigrafía por lo que su tarea es realmente más sencilla y permiten que sean escritas muchas palabras de forma muy rápida.
Esto es más difícil aún cuando es una situación que escapa del control del usuario, por ejemplo dejar el cuaderno en casa al ir a la universidad y necesitar escuchar una clase nuevamente. En cualquier caso un programa para transcribir audio a texto es una buena opción y hoy en día hay muchos desarrolladores que han realizado el Diseño de apps encargadas de esto.
Programas para transcribir audio a texto
Realmente al buscar en internet se encontrarán varias aplicaciones dedicadas a esto, muchas pueden ser útiles y otras no, algunas pueden ser gratuitas y otras no, incluso aplicaciones comunes pueden tener esta función integrada en su sistema y no se conocía. Algunas empresas se han interesado en esta problemática y han buscado resolverla creando aplicaciones, funciones o servicios que permitan a los usuarios grabar sus audios y transcribirlos luego o mientras se está grabando.
Algunas de esas aplicaciones son gratuitas y otras sencillamente no lo son, pero tienen precios bastante económicos que permiten que una mayor cantidad de usuarios pueda acceder a ellas y transcribir entrevistas, conferencias, lo que sea.
Una serie de aplicaciones serán presentadas a continuación para armar un abanico de opciones por las que optar cuando se necesite transcribir un texto, en principio se mostrarán las opciones que brindan grandes compañías como Amazon, Google, Windows e IBM, posteriormente se mostrarán otros programas creados por desarrolladores de todo el mundo para llevar a cabo esta tarea.
Amazon Web Services
Amazon es una compañía relativamente grande, pero definitivamente popular en Internet que es muy conocida por su tienda de productos, con la que han ganado enormes cantidades de dinero con la venta de tales productos que son de todo tipo, venden artículos del hogar, productos de tecnología, informática, electrónica, cosméticos, productos de higiene, de comida, ropa, accesorios, vehículos de todo tipo, libros en físico y ebooks, etc. Realmente tienen una enorme variedad de productos.
Pero no solo en su tienda puede verse esa variedad, han creado una serie de aplicaciones encargadas cosas específicas y una página web llamada Amazon Web Services o Amazon AWS. Aquí no se venden productos exactamente sino que se brindan servicio de todo tipo a sus usuarios, se pueden guardar datos en la nube de Amazon, se puede disfrutar del servicio de aprendizaje automático y muchos servicios más divididos por supuesto en nombres que permiten ubicarlos con más velocidad.
El servicio que interesa en este momento es Amazon Transcribe creado por esta compañía para utilizar el reconocimiento de voz automático o ASR que cumple el papel de aprendizaje profundo, para así transcribir textos con una buena velocidad y la mayor precisión posible, está dirigida a desarrolladores pero muchos usuarios que no tengan gran experiencia en el asunto pueden utilizarlo y beneficiarse del mismo. Para los desarrolladores es muy útil al agregar funciones que pasen la voz a texto en sus apps.
Esto reduce el trabajo de estos programadores que antes tenían que buscar otros proveedores que permitan transcribir los audios por precios altos ya que no todos los dispositivos tienen la capacidad para hacer esta tarea. Claramente estos proveedores emplean una tecnología más avanzada que la que los desarrolladores pueden crear de forma individual para sus proyectos y aun así esta no es la última que pueden manejar compañías como las que se están mencionando.
«Amazon Transcribe puede usarse para transcribir llamadas del servicio de atención al cliente, automatizar subtítulos y generar metadatos para recursos multimedia y crear un archivo con capacidad completa de búsqueda. Puede utilizar Amazon Transcribe Medical para agregar funcionalidad de texto a audios médicos para aplicaciones de documentación clínica.
Cómo desarrollador, crear transcripciones de llamadas de servicio de clientes o generar subtítulos para contenido de audio y video son retos habituales que requieren capacidades de conversión de voz a texto. Podría hacer frente a este reto creando sus propios modelos de aprendizaje automático desde cero.»
En cuanto a la personalización, este servicio permite al usuario hojear las listas de vocabulario que tiene cada idioma en sus modelos que son personalizables también, de manera que al observar las palabras almacenadas en la base de datos del servicio y determinar que es necesario agregar otras palabras o eliminar las que no sean apropiadas esto pueda hacerse fácilmente, creando así un modelo de idioma propio que responda a la forma de hablar que se maneja.
Costo
El precio por utilizar Amazon Transcribe para transcribir audio a texto es de 0,0004 cada segundo, un audio con una duración de dos minutos más treinta segundos costaría 5 céntimos, un audio de una hora (que es igual a 3.600 segundos) costaría más o menos un euro y un poco más. De igual manera, también se ofrece al usuario la posibilidad de transcribir 60 minutos de forma gratuita (en modo de prueba del producto).
¿Cómo hacer una transcripción de audio?
En Amazon Transcribe se encuentra bucket de S3, lo primero que hay que hacer es descargar el audio en un bucket de S3. Luego será necesario abrir la consola de AWS en otra ventana en el navegador que se está utilizando, esto para que se pueda ingresar el usuario y la contraseña y comenzar con la transcripción haciendo clic en la opción «Amazon Transcribe».
Posteriormente será necesario ingresar en la barra de búsqueda lo siguiente «S3» para que se pueda abrir la consola de administración y así elegir la opción «crear bucket» o escoger un bucket que ya haya sido creado anteriormente (se puede personalizar otorgándole un nombre específico), luego se debe seleccionar siguiente hasta llegar a los ajustes del bucket donde se muestra el nombre de la región, las propiedades y los permisos.
Cuando ya esté listo se deberá hacer clic en el bucket correspondiente para entrar a él, esto en la página de inicio. Luego se hace clic en «cargar» para cargar el archivo a transcribir, antes debe seleccionarse «agregar archivos» y escoger el que se pasará a audio. Luego de que el archivo ya esté subido se comenzará el trabajo de transcripción comenzando por la opción «servicios» y luego «Transcribe» que se puede encontrar en la barra de búsqueda. Luego se seleccionará «trabajos de transcripción».
Ahí se entrará en una página nueva donde se puede ver la opción «crear trabajo», se entrará en otra página donde se deberá: escribir el nombre del trabajo, escoger un idioma, pegar el archivo en la sección llamada «ubicación del archivo de origen en S3» y mantener el formato mp3 que debería tener como predeterminado. Ahora se deberá presionar «vocabulario personalizado» para mejorar el reconocimiento de voz. Finalmente deberá seleccionar «crear» para que comience la transcripción.
Ahora bien una vez que el trabajo de transcripción esté en el estado «Completo» se pueden ver sus resultados en e panel «JSON» donde se mostrará el texto resultante del audio cargado. Se recomienda eliminar este archivo del bucket de S3 para que no se realicen otros cargos a la cuenta, esto se realiza en la página de inicio del bucket.
Google Cloud
De la gigante y mega reconocida empresa Google LLC viene Google Cloud, se conocen muchas aplicaciones de esta empresa que se especifican en tareas de todo tipo: Google Maps (para mapas, direcciones y rutas), Google Drive (para almacenar información en la nube), Gmail (servicio de correo electrónico), Google Flights (para viajes y reservaciones), Google Keep (para notas) y muchísimas aplicaciones más. Google Cloud engloba una serie de servicios y entre ellos uno perfecto para transcribir audio a texto.
Google en sus herramientas de reconocimiento de voz tiene una base de datos con muchos idiomas que permiten que sean detectadas sus palabras con facilidad, esta funcional API llamada Speech-to-text maneja más de 120 idiomas aunque no es muy buena con signos puntuación, igual que el servicio anterior este está pensado para los desarrolladores en aras de que sea integrada en las aplicaciones creadas y permitir que funcionen con reconocimiento de voz y su transcripción propia.
Con esta API el desarrollador puede ofrecer la transcripción de audios con corta duración en tiempo real al mismo tiempo que se pueden subir archivos de audio ya grabados. Se pueden transcribir no solo entrevistas o conversaciones sino números de teléfono, fechas, nombres propios, entre otras cosas. Todo esto sin que el procesamiento del audio se vea realmente afectado por el ruido que pueda tener el entorno donde fue grabado.
Se ha hablado de desarrolladores porque principalmente ellos son los que pueden utilizar el servicio aprovechando al máximo su capacidad, un usuario con conocimiento promedio puede utilizarla si crea una aplicación e integra la API de Google en la misma, la crearía gracias a tutoriales o con ayuda de otras personas con un poco de experiencia en programación.
Por una parte, la alternativa para los usuarios es Google Docs que tiene una función integrada que es poco conocida, pero realmente muy útil. Se trata de la Escritura por voz que se encuentra en las herramientas de la aplicación, para utilizarla es preciso crear un nuevo documento, entrar en las herramientas del mismo y seleccionar escritura por voz para que comience la grabación al presionar play. A medida que se vaya hablando Google irá escribiendo el texto en el documento.
Por otra parte, Google Keep que es la aplicación encargada de las notas permite grabar notas de voz y transcribirlas al momento, esta no es recomendada para entrevistas, conferencias o conversaciones largas. En cuanto a la evaluación de este servicio, se ha determinado que tiene muchos problemas con la puntuación en el texto que transcribe del audio que reconoce, además puede escribir en un solo párrafo casi todo el audio si no se hace una pausa considerable para indicar que es un punto y aparte
Costo
Este servicio realmente no es gratuito al igual que Amazon Transcribe, de hecho una similitud que comparten es que los primeros 60 segundos de reconocimiento de voz y transcripción son gratis, de resto Google ofrece esta API con un costo mensual que se calcula a partir de los quince segundos, los cuales cuestan 0,006 dólares cuando se trata del reconocimiento de voz en un audio. Cuando es el reconocimiento en un video el costo es de 0,012 dólares por segundo, aunque igual los primeros 60 minutos son gratis.
Servicios Cognitivos de Azure – Windows
Azure es una herramienta de inteligencia en la nube de Windows, que permite hacer una gran cantidad de cosas e integrar varias funciones a las aplicaciones que la contraten, el reconocimiento de voz y la transcripción de audio a texto se presenta en una API al igual que en Google, que permite transcribir en vivo o a un archivo ya existente. Puede verse como un conjunto de APIs porque para la comprensión de habla se ayuda de varias de ellas para eliminar el ruido, entender el vocabulario e incluso traducir.
Costo
Para utilizar esta herramienta de la reconocida compañía Microsoft de forma gratuita solo hay que transcribir un solo audio y no exceder las cinco horas permitidas al mes, en caso de que se deseen hacer más solicitudes al mismo tiempo la compañía ofrece un plan que permite hacerlo por 20 solicitudes al precio de 0,844 euros cada hora. Esto sin modelos personalizados, en caso de que se deseen personalizar se cobra un poco más para llegar a 1,181 euros cada hora.
Prueba
Azure en una situación real realmente no se lleva muy bien con los signos de puntuación al igual que la API de Google, reconoce las preguntas al punto de que sin ser una puede colocar los signos de puntuación pero dentro de ella tampoco se ve una coma o un punto, los signos de exclamación tampoco son colocados de forma correcta. El único punto a su favor es la transcripción correcta de las fechas y horas, las cuales las coloca en un buen formato.
Watson: la inteligencia artificial de IBM
Watson es el nombre que ha escogido IBM para su inteligencia artificial que se tiene muchísimas funciones y se encarga de una variedad de tareas de todo tipo, además de eso se especializa en el reconocimiento e interpretación del lenguaje en audios de cualquier calidad, incluyendo los de calidad baja, además lo hace manejando idiomas como el inglés, el español, el francés, el mandarín, árabe, japonés, portugués y coreano.
Entre las funcionalidades que más destacan de su sistema o programa de voz a texto se encuentra el modo de reconocimiento preciso que permite que se reconozcan muchas más palabras y de forma personalizada, para que el texto sea mucho más veraz gracias a la comprensión avanzada de esta inteligencia artificial.
Además de eso no habrá problema en cuanto al reconocimiento de varios hablantes, aunado a eso ofrece al usuario la función de «timming» con la que se puede ubicar el momento en el audio en el que fue dicha alguna parte de lo que se transcribió, esto según un porcentaje de probabilidad que muestra varias opciones.
Su interfaz es un poco más sencilla, por lo que no es necesario ser un experto en programación, conocer más allá de lo básico en programación bastará. Igualmente, si un usuario desea crear su app y agregar una funcionalidad de transcripción para hacerlo un programa de voz a texto o solo integrar esa función, Watson es una buena opción para proveedor.
Costo
Al igual que los servicios anteriores para transcribir audio a texto se permite transcribir de forma gratuita cierta cantidad de tiempo, en este caso son 100 minutos mensualmente de forma gratuita al crear una cuenta en su plataforma oficial.
De resto IBM ofrece este servicio por medio de planes, esa opción gratuita no permite personalizar el idioma, los que le siguen sí ofrecen esa función pero sus costos varían conforme aumenta la cantidad de minutos a transcribir. Por ejemplo, lo que llaman «plan estándar» con las funciones más sencillas tiene un costo de 0,02 dólares por minuto, el resto puede ir desde los 0,1 dólares en adelante, por más de un millón de minutos o menos que eso.
Prueba
La prueba de la transcripción de Watson ha sido positiva en cuanto al reconocimiento de las palabras, con una pronunciación promedio se pueden ver del 100% de las palabras del audio un 90% que son escritas correctamente en el texto. Esto es un punto positivo que comparte con todas las aplicaciones mencionadas, sin embargo, lo negativo también lo incluye: los signos de puntuación no son colocados correctamente en el párrafo y las horas y fechas son reconocidas medianamente bien.
https://www.youtube.com/watch?v=cbGLbH-Z8FY
Realmente el margen de mejora de estos servicios es amplio y aunque tienen una buena comprensión de las palabras y buen reconocimiento de las mismas, la puntuación es importante para que el texto pueda entenderse bien y no requiera de tanta edición por parte del usuario. Sin embargo, estos servicios al igual que todo siguen un proceso de mejoramiento y perfeccionamiento que parece ir avanzando bien.
Otros programas para transcribir audio a texto
Las siguientes apps o programas permiten transcribir audio a texto sin necesidad de tener conocimientos sobre programación, esto sin cumplir la tarea de una forma muy diferente a la de los servicios anteriores. En este sentido las siguientes aplicaciones son ideales para que los usuarios transcriban audio a texto con solo descargarlas.
- Audio Virtual Cable: app que simula un comando hacia Google Drive con seleccionar «Cable Output» y reproducir un archivo grabado.
- Dictation.io: Ideal para escribir con la voz, transcribir un audio o video y ahorrar bastante tiempo.
- Go Transcribe: Es una app paga, así como SpeechMatics, Transcribe Wreally Temi. Go transcribe cobra 25 céntimos por minuto transcrito, la segunda app cobra 0,07 céntimos por minuto, Transcribe Wreally cobra 17,63 al año y 5,29 por cada hora a transcribir y la última cobra 8 céntimos por minuto.
- Google Docs – Escritura por voz: Junto con Google Keep son herramientas gratuitas
- Otter: App de notas de voz disponible para Android y para iOS (gratis 600 minutos mensual)
- Speech Notes: Agrega comandos en una leyenda para introducir en el texto las comas u otros signos.
- Speechlogger: Se puede editar el texto, guardarlo automáticamente y exportarlo.
- Talk Ty.per: Su interfaz está en español, permite descargar el texto transcrito y es gratis.
Apps móviles para transcribir audio a texto
Hasta ahora se había hablado de programas para transcribir audio a texto en una pc o desde un navegador, las siguientes opciones resolverán el problema de la transcripción de un audio a texto desde el teléfono:
- Active voice
- Speechnotes
- Transcriber – Whatsaap
- Voice Texting Pro