Microsoft ha presentado VALL-E, una nueva inteligencia artificial que es capaz de reproducir la voz de cualquier usuario, de forma casi idéntica, y con solo escuchar por unos tres segundos puede imitar emociones, ambiente acústico y diferentes énfasis de las frases.
De acuerdo con un informe publicado en el sitio web de 20 Bits, la compañía de Redmond desarrolló su enfoque en el modelo de lenguaje para la síntesis de texto a voz (TTS por sus siglas en inglés, text to speech).
Desde Microsoft, aseguran: “VALL-E emerge capacidades de aprendizaje en contexto y se puede utilizar para sintetizar voz personalizada de alta calidad con solo una grabación registrada de tres segundos de un hablante”.
“Entrenamos un modelo de lenguaje de códec neuronal utilizando códigos discretos derivados de un modelo de códec de audio neuronal listo para usar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión de señal continua como en el trabajo anterior”, explican los expertos sobre el proceso de desarrollo.
“Durante la etapa previa al entrenamiento, escalamos los datos de entrenamiento de TTS a 60.000 horas de habla en inglés, lo que es cientos de veces más grande que los sistemas existentes”.
:quality(70)/cloudfront-us-east-1.images.arcpublishing.com/metroworldnews/D267ZBJNBFB5JCBM4RUMHLYAVQ.jpg)
Compatibilidad con ChatGPT
Microsoft está trabajando para que VALL-E funcione con otros modelos de inteligencia artificial generativa, como GPT-3, lo que tiene mucho sentido ya que la empresa anunció que implementará ChatGPT en sus principales herramientas, como Bing.
En otras palabras, ChatGPT, el popular bot de redacción de textos, sería capaz de ofrecernos resultados de voz una vez haya integrado este modelo.
“Los resultados del experimento muestran que VALL-E supera significativamente al sistema de TTS de disparo cero de última generación en términos de naturalidad del habla y similitud del hablante. Además, encontramos que VALL-E podría preservar la emoción del hablante y el entorno acústico del mensaje acústico en síntesis”, comentaron desde Microsoft.
:quality(70)/cloudfront-us-east-1.images.arcpublishing.com/metroworldnews/YCQ77BH7QJAC5AX3WIVDXZBQJ4.jpg)
El sitio web de VALL-E ya está online a modo de demostración. Incluye la muestra original de la voz y las imitaciones, así como reproducciones en las que se puede notar cómo cambian el tono o las emociones.