Google mejora la búsqueda por voz para hacerla más rápida y certera

Google mejora la búsqueda por voz para hacerla más rápida y certera

Los nuevos modelos acústicos anunciados por Google ya están funcionando en la app de Google y en la función de dictado en dispositivos Android.

En 2012 Google introdujo las Deep Neural Networks (DNNs) a las búsquedas de voz, cambiando un sistema que llevaba 30 años de funcionamiento: el Gaussian Mixture Model (GMM). Esta tecnología mejoró la precisión con la que los dispositivos móviles eran capaces de reconocer las palabras, pudiendo ser más eficaces al momento de entregar resultados esperados.

Hoy Google anunció que ha dado un nuevo paso adelante para mejorar aún más la capacidad de las máquinas para entendernos con mayor precisión, a través de una secuencia discriminatoria de técnicas de entrenamiento denominadas Connectionist Temporal Classification (CTC). Estos nuevos modelos acústicos son una extensión de las Redes Neurales Recurrentes (RNNs) y permitirían una mejor compresión de las palabras aún en ambientes ruidosos y a gran velocidad.

En la forma tradicional de reconocimiento de voz la forma de onda del habla de un usuario se divide en fragmentos o ‘frames’ de 10 milisegundos de audio. Cada frame es analizado por el contenido de frecuencia y el vector entregado es traspasado por un modelo acústico como el DNN que produce una probabilidad de distribución sobre todos los fonemas (sonidos) en el modelo. El Modelo Escondido de Markov (HMM) ayuda a imponer una estructura temporal en esta secuencia de distribuciones probables. Esto es combinado con otras fuentes de conocimiento como un Modelo de Pronunciación que vincula las secuencias de sonidos en palabras válidas en el lenguaje escogido y en un Modelo de Lenguaje que expresa cuan seguido aquellas secuencias de palabras están en aquel lenguaje.

Nuestro modelo acústico mejorado se apoya en las redes Neuronales Recurrentes (RNN). Las RNN tienen secuencias de feedback en su topología, permitiéndoles modelar dependencias temporales. Intenta decir en voz alta “museo” – fluye muy natural en un sólo aliento, y las RNNs pueden capturar eso. El tipo de RNN usado aquí es una Long Short-Term Memory (LSTM) RNN la que, a través de células de memoria y un sofisticado mecanismo de entrada, memoriza información mejor que otras RNN”, explica Google en una entrada en su blog.

Según expone Google, lo anterior no es la parte complicada. Una vez conseguido el uso adecuado de los modelos acústicos los desarrolladores necesitaban que esto sucediera en tiempo real y que no consumiera los recursos de los teléfonos, de otra forma no tendría una aplicación útil para los usuarios de smartphones.

Google Now probablemente no sea el más glamoroso de los asistentes virtuales, pero ha sabido evolucionar hacia usos útiles para los usuarios y aún se espera que se integre la información contextual en la siguiente versión de Android. Por lo que las búsquedas de voz parecen estar en su mejor momento.

El anuncio asegura que a partir de hoy los nuevos modelos acústicos ya están funcionando en las búsquedas de voz dentro de la aplicación de Google para Android e iOS y también en la función de dictado en equipos Android, por lo que puedes estar tranquilo de no pasar bochornos, a menos que tengas a Cortana.