Skype Translator, la apuesta de Microsoft para romper la barrera del idioma

por

921 posts

Probamos la traducción en tiempo real ingles-español que estará disponible en Windows 8.1.

Hace algunos meses Microsoft anunció Skype Translator, una versión de Skype capaz de traducir voz y texto en tiempo real en videollamadas. La funcionalidad fue mostrada durante la Code Conference por Satya Nadaella y Gurdeep Singh Pall, vicepresidente de Skype, que la probaron con una traducción inglés-alemán.

Luego de varios meses de arduo trabajo, Microsoft liberó hoy una versión previa de Skype Translator para Windows 8.1 que permite traducir de inglés a español. La empresa ha elegido al español por dos razones: la precisión de la traducción y las miles de solicitudes que recibieron de usuarios interesados en participar en la beta.

Para tener una idea de su funcionamiento y el trabajo hecho por el equipo de desarrollo, hace algunos días FayerWayer tuvo una charla exclusiva con Gurdeep Singh Pall, quien nos explicó la tecnología que está detrás de este interesante proyecto.

¿Cómo se efectúa la traducción?

Gurdeep Singh Pall, Vicepresidente de Skype

Gurdeep Singh Pall, vicepresidente de Skype

Gurdeep comenta que el cuerpo humano ha evolucionado de modo que durante una conversación, el sonido de la voz llega al oído en un promedio de tiempo de entre 150 y 200 milisegundos. Si es más tardado, la charla no se sentirá natural.

De esos 200 milisegundos partimos en una llamada de Skype. Tenemos una maquinaria de fondo que comienza por capturar el sonido en tiempo real. Luego se efectúa reconocimiento de voz en esa transmisión el cuál se hace por medio de una red neuronal. El paso siguiente es traducir el reconocimiento de voz al idioma que estoy hablando (en este caso, inglés). Después de eso, otra red neuronal toma el reconocimiento de voz y lo traducirá a la lengua que se enviará a la persona con la que conversamos.

El último paso es tomar la transcripción del lenguaje traducido y usar un sintetizador de voz para hacer audible la traducción. Al final, la otra persona recibirá el mensaje en su idioma. Todo esto ocurre en tiempo real.

El aprendizaje automático

skype_translator_03 Skype Translator emplea aprendizaje automático que depende de datos, eso se traduce en que a medida que lo usas y captura las palabras, el sistema se vuelve más eficiente. Gurdeep comenta que han capturado diferentes lenguas de distintas fuentes para almacenar los datos y mejorar sus modelos.

Hemos llegado a un punto en que el rendimiento es lo suficientemente bueno, por lo que creemos que puede ser parte de esta versión previa. Todo se reduce a este balance entre qué tan bueno necesita ser para que la gente lo use y cómo se perfeccionará después de comiencen a emplearlo. No quisimos lanzar algo demasiado pronto. La gente no lo usaría y no seríamos capaces de perfeccionarlo.

Skype Translator emplea todo tipo de español. A diferencia de la división por país a la que estamos acostumbrados en el software, Skype Translator propone una sola lengua. La base de datos se nutrirá de todas las regiones donde ésta se habla. No importa si eres mexicano, chileno, español o argentino….el sistema capturará los diferentes acentos.

¿Cómo funciona el cliente?

skype_translatordemo_01 Luego de hablar con Gurdeep tuvimos oportunidad de probar Skype Translator durante una hora en una videollamada con Alicia Edelman, senior program manager de Microsoft Research. La primera impresión es positiva. En la práctica, Skype Translator funciona como cualquier videollamada de Skype. Basta con marcarle a uno de tus contactos y activar la opción de traducción en tiempo real. Cuando una persona habla, el sistema captura la voz y comienza a traducir en el fondo.

Cuando haces una pausa larga o dejas de hablar, se activa la traducción al idioma de la otra persona por medio de una voz automatizada y bloques de texto ubicados en una barra lateral. Para esta versión se usa una voz en español ibérico. En futuras versiones podríamos escuchar una voz más acorde al público latinoamericano. skype_translator_01 El tiempo en el que se lleva a cabo la traducción es sorprendente. Si haces una pausa de más de un segundo, la otra persona recibirá la voz y texto de inmediato. En cuanto a la precisión, el sistema funciona mejor si usas frases largas, ya que necesita contexto. Durante la llamada noté menos errores de traducción cuando cada uno enunciaba más de tres oraciones seguidas.

Para las frases cortas hay que ser preciso; por ejemplo, si haces una pregunta debes usar la entonación adecuada, de lo contrario el traductor dará por hecho que es una afirmación. Si bien el sistema es automatizado y la voz suena como robot, ver a la otra persona en la videollamada ayuda a que la experiencia sea más natural. skype_translator_06 Para una persona que entiende inglés, las pausas en Skype Translator pueden parecer largas. Si puedes leerlo, pero te da miedo hablarlo porque tienes una mala pronunciación, podrás deshabilitar la voz y quedarte únicamente con la traducción por escrito. Esto le dará mayor fluidez a la llamada.

Es curioso cómo el programa te muestra lo malo que puedes ser al hablar tu idioma nativo. Me di cuenta de que no ser claro y dar demasiadas vueltas a una oración deriva en traducciones divertidas. Si intentas hablar en inglés los resultados son similares, el sistema no puede distinguirlo en automático y arroja traducciones sin sentido.

El futuro

skype_translator_04 Skype Translator es una versión previa, tiene varios detalles en la traducción que serán corregidos a medida en que los usuarios la usen. Sería interesante conocer el desempeño con el español de otros paises para medir la precisión. Al menos en términos de velocidad, el sistema puede soportar que hables rápido y sin pausas.

La voz suena robotizada, y eso es algo que también se resolverá con el tiempo. Gurdeep dice que es uno de los puntos en los que el equipo seguirá investigando. No es sólo la velocidad o la forma de ligar las oraciones, sino también el tono de voz o la personalidad, ya que son elementos que puede cambiar el contexto de una frase.

Eventualmente estos modelos de lenguaje que construimos serán cada vez mejores y se volverán más inteligentes. Creo que llegaremos a un punto en el que un día no sabrás que estás hablando con un computador. La personalidad es uno de los factores que hemos trabajado con Cortana y es una parte fundamental en esta ecuación.

Skype Translator requiere una diadema o micrófono de buena calidad. Si decides usarlo con el micro de tu portátil, es probable que el ruido exterior o las voces de los demás ocasionen una traducción imprecisa.

skype_translatordemo_02

Durante la demo usé una diadema e hicimos una prueba con otra persona que estaba más alejada y funcionó, aunque estuvimos dentro de una sala de juntas sin ruidos. También simulé estar enfermo de la garganta hablando lo más bajo posible y el sistema pudo captar sin problemas la oración.

Será cuestión de probarlo en otros escenarios para medir su eficacia. Skype Translator estará disponible a partir de hoy por medio de un nuevo cliente para Windows 8.1. Gurdeep mencionó que decidió separarlo de la aplicación principal porque no quiere cambiar cosas de la noche a la mañana en una aplicación que usan cientos de millones de personas.

Una vez perfeccionado, se implementará en otras plataformas como parte de la funcionalidad de Skype y ofrecerá traducción hasta en 40 lenguas.