El estado del reconocimiento de voz de Linux

Dedico mucho tiempo a buscar artículos y, a menudo, pienso en el tema de un artículo mientras camino a la estación de tren o cuando estoy fuera de casa en general.

Una noche, mientras caminaba 1.5 millas hasta la estación desde mi trabajo, pensé "¿no sería bueno si pudiera grabar lo que quería decir y luego transcribirlo automáticamente a un archivo de texto que podría editar y formatear más adelante?" .

He pasado muchas horas mirando las diferentes opciones disponibles para el reconocimiento y dictado de voz, incluida la grabación directamente a través de un micrófono utilizando el software de dictado en Linux, grabando el archivo en formato MP3 o WAV y convirtiéndolo a través de la línea de comandos, además de usar Chrome y aplicaciones de Android.

Este artículo destaca mis hallazgos después de días de trabajos forzados.

Opciones de linux

Tratar de encontrar software de dictado y reconocimiento de voz en Linux no es tan fácil como podría ser, y las opciones disponibles no son tan inteligentes.

Esta página de wikipedia tiene una lista de posibles opciones que incluyen CMU Sphinx, Julius y Simon.

Estoy usando SparkyLinux que se basa en las Pruebas de Debian en este momento y puedo decirles que el único paquete de reconocimiento de voz disponible en los repositorios es Sphinx.

Los programas nativos de Linux que terminé probando fueron PocketSphinx, que usé para convertir archivos WAV a texto y Freespeech-VR, que es una aplicación de Python que te permite grabar directamente desde un micrófono.

También probé un par de aplicaciones de Chrome, incluyendo VoiceNote II y Dictanote.

Finalmente probé las aplicaciones de Android "Dictation and Email" y "Talk And Talk Dictation".

Freespeech-VR

Freespeech-VR no está disponible en los repositorios estándar. He descargado los archivos desde aquí.

Después de descargar y extraer el contenido del archivo zip, abrí un terminal y navegué a la carpeta donde se extrajeron los archivos. Escribí el siguiente comando para abrir freespeech-vr.

sudo python freespeech-vr

Tengo un par de auriculares con un micrófono bastante decente y un acento del sur de Inglaterra bastante claro.

El siguiente texto apareció en la ventana de freespeech-vr:

Bienvenido a la unidad Perros de los resultados Hoy Tenga garantizado Cómo realizar las pruebas. Tiene que probar. Cuándo enviar mensajes de texto. Uso del sistema. Discurso I el A uno fue cada uno. Sólo con una esperanza de quedarse y el medio de una gallina. El Ea cuando me llamo el siguiente ofon llama al teléfono Este archivo Pronto, un caso de teléfono a manos, espaciará la esfinge. No se compartirá un teléfono. Un capacitado y herramientas. Usar el habla. Cuando termine Diga un archivo usado. historia A Y usando a por el Cuando es muy importante cómo fue el éxito Este Linux fue como ¿Evitaste?

Solo quiero decir ahora que este no es el sitio web de Unit Of Dogs y en ningún momento mencioné nada relacionado con Golden chickens. En realidad, estaba tratando de describir el proceso de uso del software de reconocimiento de voz.

Probé el software varias veces, incluso con diferentes niveles de tono y velocidad, pero la precisión era baja.

PocketSphinx

PocketSphinx puede tomar un archivo WAV y convertirlo en texto usando la línea de comandos. PocketSphinx está disponible a través de los repositorios de Debian y debería estar disponible para la mayoría de las distribuciones.

El problema principal que encontré con PocketSphinx es que virtualmente necesitas un título en los conceptos de reconocimiento de voz, archivos de idiomas, diccionarios y cómo entrenar el sistema.

Después de instalar PocketSphinx, debe ir al sitio web de CMU Sphinx y leer la mayor cantidad de información posible. También es necesario descargar el siguiente archivo de modelo.

Modelo de lenguaje genérico en inglés de Estados Unidos

(Si no es un hablante nativo de inglés, elija el modelo de idioma que sea apropiado para usted).

La documentación para PocketSphinx y Sphinx en general es difícil de entender para los legos, pero de lo que podría entender, los archivos de diccionarios se utilizan para proporcionar una lista de palabras posibles y los modelos de idiomas tienen una lista de posibles pronunciaciones.

Para probar PocketSphinx utilicé una grabación de mi propia voz, un fragmento de Al Pacino en "The Devils Advocate" y un fragmento de "Morgan Freeman". El objetivo de esto era probar diferentes voces y para mí no hay nadie que pueda contar una historia tan claramente como Morgan Freeman y nadie pronuncie una línea como Al Pacino.

Para que PocketSphinx funcione, necesita un archivo WAV y debe estar en un formato determinado. Si el archivo está en formato MP3, use el comando ffmpeg para convertirlo en formato WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Para ejecutar PocketSphinx use el siguiente comando:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-es-us.lm 2> voice2.log

pocketsphinx_continuous toma un archivo WAV y lo convierte en texto.

En el comando anterior a pocketsphinx se le dice que use un archivo de diccionario llamado "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" con el modelo de lenguaje "cmusphinx-5.0-en-us.lm". El archivo que se está convirtiendo en texto se llama voice2.wav (que es una grabación que hice con mi voz). Finalmente, 2> coloca toda la salida detallada que no necesita necesariamente en un archivo llamado voice2.log. Los resultados reales de la prueba se muestran dentro de la ventana del terminal.

Los resultados con mi voz son los siguientes:

Bienvenidos a la próxima asignatura de esta semana sobre qué software de reconocimiento en un minuto

Los resultados no son tan horrendos como con freespeech-vr, pero aún no son realmente utilizables. Luego intenté usar PocketSphinx con Al Pacino, pero esto no arrojó ningún resultado.

Finalmente traté de usar la voz de Morgan Freeman de la película "Bruce Almighty" y aquí están los resultados:

000000000: vamos a por ella000000001: son tan difíciles, sí, el día que ahora sí, esto es lo más que hemos estado vivos, soy parte del calor000000002: en el ascensor, que es la clave para salir de un poco de béisbol o saber qué hacer en la vida000000003: cuales son los que se recuperarán000000004: no lo escribieron000000005: tienen en mi derecho000000006: debes ser reglas000000007: te he estado esperando000000008: y aprendió aquí que era una ilustración, fue la fiesta navideña asesina000000009: resulta una de las formas de escribir o. culo pensé que pocos siempre usan uno000000010: como el problema unido no le dará el bien, yo los estimé en ese momento, cuando no hicimos todo lo que crees que estoy en el mundo, hogares y he visto que000000011: un padre que lo tiene000000012: que mucho sobre esto000000013: hace eso dado000000014: todo lo que los que no caen por mucho000000015: justo en el otoño000000016: esperen solo por mi000000017: un infeliz si creo también que van a tener un que será casado en un lugar que no nos gusta, me gusta el diferente.

Mi prueba difícilmente puede ser considerada científica y los desarrolladores de PocketSphinx pueden decir que no estoy usando el software correctamente. También existe una técnica llamada entrenamiento de voz que se puede utilizar para crear mejores diccionarios y archivos de idioma.

Sin embargo, mi opinión predominante es que es demasiado difícil para el uso diario estándar.

VoiceNote II

VoiceNote II es una aplicación de Chrome que utiliza la API de reconocimiento de voz de Google.

Si está utilizando los navegadores Chrome o Chromium, puede instalar VoiceNote II a través de la Tienda Web.

Los íconos en VoiceNote II están dispuestos de una manera extraña, ya que necesita configurar el idioma en la parte inferior de la ventana y el botón de edición también está en la parte inferior, sin embargo, el botón de grabación está en la posición superior derecha.

Lo primero que debe hacer es seleccionar un idioma y esto puede lograrse haciendo clic en el icono del mundo.

Para comenzar a grabar, haga clic en el ícono del micrófono y comience a hablar por su micrófono. Para obtener los mejores resultados, encontré que hablar lentamente era clave para que el software tuviera la oportunidad de mantenerse al día.

Los resultados no fueron tan buenos como se puede ver a continuación:

Hola y bienvenidos a conectarse. Go-Travels.com artículos de hoy acerca de la conversión de voz a texto dunelm farrell recession 2008 como conversiones y dijo que es una buena forma de encontrar el complemento de texto de voz para mostrar el paquete 2014debian o rpm. vs eligió en Edimburgo, francés, alemán, tiempo en el Reino Unido, comience con el micrófono, lo que terminó de escribir su texto como archivo de texto para su éxito, así que es un acento inglés muy estándar del sur de Inglaterra, pero lo mejor es ir al texto por este torrentalong con el documento real y puedes ver los errores que te hacen sentir mal por escuchar a tus amigos

Dictanote

Dictanote es otra aplicación de Chrome que se puede usar para dictados y se mostró más intuitiva, pero los resultados no fueron mejores que los de VoiceNote II.

Solo utilicé la versión demo de Dictanote que le impide crear nuevos documentos, pero le permite hablar sobre el texto que ya está en el editor. Pude probar el reconocimiento de voz, pero los resultados no fueron mejores que los de VoiceNote II y, por lo tanto, no me registré para la versión Pro.

Dictado y correo

"Dictation And Mail" es una aplicación de Android que utiliza la API nativa de reconocimiento de voz de Google.

Los resultados de "Dictation and Mail" fueron mucho mejores que cualquiera de los otros programas intentados hasta este momento.

Hola, bienvenido a Linux lifewire. Hoy hablamos de convertir sonido a texto.

El truco con "Dictation and Mail" es hablar lentamente y pronunciar tan bien como puedas con un acento uniforme.

Después de que hayas terminado de hablar, puedes enviarte los resultados por correo electrónico.

Dictado de hablar y hablar

La otra aplicación de Android que probé fue "Talk And Talk Dictation".

La interfaz para esta aplicación fue la mejor del grupo y el reconocimiento de voz funcionó muy bien. Después de grabar el dictado, pude compartir los resultados de varias maneras, incluso por correo electrónico.

bienvenido a linux Go-Travels.com hoy estamos hablando de convertir un discurso a texto

Como puede ver, el texto de arriba es tan claro como posiblemente pueda esperar obtener. Hablar despacio es la clave.

Resumen

Native Linux tiene mucho camino por recorrer con respecto al reconocimiento de voz y específicamente al dictado. Hay algunas aplicaciones que utilizan la API de Google Voice, pero aún no están listadas en los repositorios.

Las aplicaciones de ChromeOS son un poco mejores, pero con mucho, los mejores resultados se lograron usando mi teléfono Android. Tal vez el teléfono tenga un mejor micrófono y, por lo tanto, el software de reconocimiento de voz tenga más posibilidades de conversión.

Para que el reconocimiento de voz sea realmente útil, debe ser más intuitivo y requiere menos configuración. No debería tener que perder tiempo con los modelos de idiomas y diccionarios para hacerlo inteligible.

Sin embargo, aprecio que todo el arte del reconocimiento de voz sea muy desafiante porque todos tienen una voz diferente y hay muchos dialectos de región a región en un país, sin importarles la preocupación por los cientos de idiomas que se usan en todo el mundo.

Por lo tanto, mi análisis es que el software de reconocimiento de voz aún está en progreso.