Nueva tecnología permite leer los labios y distinguir distintos idiomas

Un grupo de investigadores de la Universidad de Anglia del Este en el Reino Unido, han logrado desarrollar una tecnología capaz de interpretar nueve idiomas, por medio de la lectura de los labios de un interlocutor.

La tecnología se desarrolló a partir del estudio de los movimientos faciales de 23 personas bi y trilingues, logrando en la actualidad la identificación de frases en inglés, francés, alemán, árabe, mandarín, cantones, italiano, polaco y ruso; con un gran nivel de precisión según sus creadores.

Para lograr que la tecnología funcione, los investigadores utilizaron el reconocimiento visual de las características típicas de cada idioma (el movimiento de la lengua, labios y barbilla cuando se habla).

Si bien anteriormente ya se habían desarrollado algunas tecnologías que lograban leer los labios, es primera vez que se avanza en el reconocimiento de los distintos idiomas.

Se espera que a futuro esta tecnología permita ayudar a las personas sordas, unidades militares en terreno o para identificar con claridad el habla en ambientes muy ruidosos.

Link: Lip-reading computers can detect different languages (Vía CNET)

Compartir Compartir
Publicado por ZooTV el 27 de April 2009 en la categoría Ciencia con los tags , , , . Tiene 27 comentarios.

27 Comentarios

Nueva tecnología permite leer los labios y distinguir distintos idiomas

Deja tu Comentario ↓
Nico1920

DesaprobarAprobar5Nico1920 dijo el 27-4-2009 a las 08:03:

1

Interesante. ¿Funcionará con idiomas similiares como español, portugues e italiano? ¿Reconocerá variantes muy regionales como el “chileno” o el “chilote”?

cibernetiko

DesaprobarAprobar16cibernetiko dijo el 27-4-2009 a las 08:15:

2

Reconocerá el habla de los flaytes??

m_akina

DesaprobarAprobar2m_akina dijo el 27-4-2009 a las 08:18:

3

Me recuerda a HAL leyendo los labios en 2001: Una Odisea Espacial. Que miedo!

Wooo!!

DesaprobarAprobar23Wooo!! dijo el 27-4-2009 a las 08:22:

4

@cibernetiko No, porque los flaytes no tienen alma.

Patriccio

DesaprobarAprobar-5Patriccio dijo el 27-4-2009 a las 08:23:

5

Y que pasa con el Jerigoncio??

vicere

DesaprobarAprobar7vicere dijo el 27-4-2009 a las 08:26:

6

interesante, es cosa de imaginar si detecta el movimiento de los labios, se podría dejar de lado el mouse y el teclado en el futuro cercano, aunque para los flaytes tendrian una version under… muy under

Lucas Tañeda

DesaprobarAprobar1Lucas Tañeda dijo el 27-4-2009 a las 08:28:

7

Que tenebroso el asunto, por que así no podremos conversar agusto en lugares concurridos……….

shaitan

DesaprobarAprobar7shaitan dijo el 27-4-2009 a las 09:06:

8

como se ve en la foto tambien puede entender a zombies!!

sheshoooshh!!!!

Rola_

DesaprobarAprobar2Rola_ dijo el 27-4-2009 a las 09:07:

9

@lucas tañeda: Estaba pensando algo similar. El fin de semana vi nuevamente el capitulo de futurama donde la nave se enamora del robot y se vuelve loca, y en un minuto dice cuando ellos se van a un lugar sin microfonos “ojalá pudiera leer sus labios”… y yo pensaba, en algun mintuo esta puede ser real, y en ese minuto probablemente si se puedan leer los labios…

Cristobal

DesaprobarAprobar-2Cristobal dijo el 27-4-2009 a las 09:11:

10

Uhhh La wuea Fea xD…… Mucho Ruido y pocas Nueces

PaYaZo

DesaprobarAprobar-2PaYaZo dijo el 27-4-2009 a las 09:42:

11

interesante, servirá para poder andar con traductores :D
genial he!!!
netbook con webcam y listo :D
saludos
Linuxla.cl
Se me cuidan!!

Dani

DesaprobarAprobar2Dani dijo el 27-4-2009 a las 09:42:

12

Otra herramienta mas para el Big Brother :P

Vexing

DesaprobarAprobar2Vexing dijo el 27-4-2009 a las 10:42:

13

Genial…ahora la brecha es menor entre los sordos y el mundo …. imaginense ahora si se logra miniaturizar esto y se pone como un chip o un pequeño conjunto de ellos dentro de una televisión (quizá con una mini-cámara apuntando a la señal de TV) se podrán hacer close caption de cualquier cosa….genial..simplemente…genial

Salu2

Henry

DesaprobarAprobar5Henry dijo el 27-4-2009 a las 11:20:

14

ME KAGE DE SUSTO KON LA FOTO!!!

Zanafer

DesaprobarAprobar1Zanafer dijo el 27-4-2009 a las 11:35:

15

si quieres reconocer a los flaytes solo necesitas verle las manos.

slipkubus

DesaprobarAprobar7slipkubus dijo el 27-4-2009 a las 11:49:

16

traerá un plug-in para entender a salas ?

Jacinto XD

DesaprobarAprobar1Jacinto XD dijo el 27-4-2009 a las 11:55:

17

@Lucas Tañeda: si quieres privacidad te pones un tapavocas y ya XD

Javier

DesaprobarAprobar0Javier dijo el 27-4-2009 a las 13:12:

18

henry, somos dos.

ValaRaucO

DesaprobarAprobar1ValaRaucO dijo el 27-4-2009 a las 15:02:

19

@PaYaZo: No me imagino frente a un chino diciendole q le hable a mi netbook pa poderle entender, pero la aplicación esta interesante!! xDDD

Ya pronto los pobres interpretes de CNN se van a quedar sin trabajo

christian

DesaprobarAprobar0christian dijo el 27-4-2009 a las 15:16:

20

la mina de la foto, aplicó oral pesao!

Yo mismo

DesaprobarAprobar0Yo mismo dijo el 27-4-2009 a las 16:04:

21

excelente noticia.

otra cosa, realmente es fea la vieja de la foto!

navarro92

DesaprobarAprobar0navarro92 dijo el 27-4-2009 a las 18:33:

22

NOOO!!! ahora los supercomputadores psicotico van a saber que planeamos desconectarlos y desconectaran nuestros sistemas de sustentacion de vida (internet, cable)!!! xd

un saludo a HAL, que sepa que no quiero desenchufarlo

girar

DesaprobarAprobar3girar dijo el 27-4-2009 a las 19:59:

23

@Nico1920
tu pregunta (completamente respetable), surge de un desconocimiento de la realidad de las lenguas naturales. para los especialistas de otras escuelas, les aclaro que soy seguidor de la lingüística generativa anglosajona, y desde allí emito mi opinión.
las lenguas no existen. son solo idealizaciones metodológicas que unicamente sirven al trabajo del laboratorio lingüístico. nunca se realizan en un hablante.
todos hablamos dialectos. hay una frase famosa entre lingüistas que dice: “una lengua es un dialecto con un ejército”.
el italiano es el dialecto florentino.
el español es el dialecto castellano.
el frances es el dialecto de la ille de france.
etc.
y por favor, todos los idiotas prejuiciosos desinformados que hablan acerca de “los flaytes”,
léan a william labov.

los jóvenes de nivel socioeconómico bajo a los que se refieren hablan un dialecto igualmente válido que los dialectos de académicos y aristócratas.

por lo tanto, el mecanismo que les permite a estos científicos reconocer fonemas de ciertas lenguas (o dialectos) les permitirá distinguir variaciones regionales, socioeconómicas y culturales.

LOS FONEMAS NO TIENEN CLASE NI NACIONALIDAD!

Nico1920

DesaprobarAprobar1Nico1920 dijo el 28-4-2009 a las 14:52:

25

@Girar:

Interesante. Soy un aficionado amateur de la lingüistica, así que disculpa si meto la pata. Con mi pregunta en el fondo me estoy cuestionando (así expresadolo tan “técnicamente”), si la maquina podrá realmente distinguir “fonemas”, o sea, si puede identificar dos sonidos fonéticamente distintos como fonológicamente iguales.

Hacia mi pregunta, por que me da la impresión de que la maquina solo reconoce movimientos (o sea, identifica a través de como se articulan los sonidos), pero a partir de eso no puede identificar si las diferencias de sonidos son distintivas o no de significado.

Ojalá puedas contestar.

girar

DesaprobarAprobar1girar dijo el 29-4-2009 a las 09:22:

26

@Nico1920
celebro tu interés por las lenguas!
el link del post arriba no funciona, pero googleando un poco encontré este:

http://www.sciencedaily.com/releases/2009/04/090421205226.htm

en realidad debemos replantear el uso del término fonema ya que estamos hablando de un sistema que analisa imágenes y no sonidos. mejor empezar la discusión de nuevo.
según la definición en el link anterior:
“…statistical modelling of the lip motions” (habría que agregar lengua, ya que se hace mención a este músculo en el artículo original)

creo que hay dos factores clave. en otros posts he comentado la importancia que ha cobrado la estadística en inteligencia artificial y análisis de datos en los últimos diez años, lo que me parece notable en términos técnicos pero desconcertante en términos conceptuales. sin profundizar demasiado el tema, lo que interesa en este caso es que este método aún posee las limitaciones de un sistema estadístico, es decir, no es universal, sino contingente. depende de una serie de pruebas efectuadas en un sujeto para que el sistema “aprenda” a reconocer los gestos de ese sujeto en particular, no es capaz de generar patrones universales que sean válidos para cualquier sujeto, ni tampoco son los científicos capaces de generar patrones a priori que sean validos universalmente. pero lo fantástico de la estadística es que este sistema u otro que lo supere, después de analizar una cantidad suficiente de datos y después de someter esos datos a tests predictivos suficientemente generales, tal vez sea capaz de generar patrones de reconocimiento universales.

el otro factor es netamente lingüístico. y tiene que ver con la estructura de múltiples niveles del lenguaje y cómo éstos se encuentran realizados en el cerebro. para interpretar el habla de un sujeto, nuestro cerebro está procesando una cantidad enorme de información simultáneamente en módulos o dominios separados, que poseen interfaces que los comunican y producen restricciones y refuerzos mutuos. es decir estamos “leyendo” simultáneamente los sonidos, los labios y otras expresiones faciales, los gestos corporales, etc. (si, todos los hablantes sabemos leer labios de cierta forma)
incluso existe un nivel sonoro no fonémico que se encuentra presente en grados variables de una lengua a otra, que son los niveles prosódicos y de entonación, que en el español por ejemplo determinan la fuerza ilocucionaria de una oración (algo así como la intención). en otras lenguas como el chino la entonación modifica los lexemas mismos al mismo nivel de los fonemas.
bueno, todos los hablantes nativos de una lengua consiguen entender cadenas únicamente a través de los sonidos, distinto es el caso de segundas o terceras lenguas, si hablas inglés, recuerda lo difícil que es entenderlo cuando hablas por teléfono. y las personas entrenadas adecuandamente son capaces de entender o interpretar únicamente los movimientos de labios. ya que no soy especialista en esa área, no te sabría decir con exactitud que nivel de independencia poseen los movimientos labiales en tanto determinantes de sentido. por lo tanto la pregunta es (yo mismo no la puedo responder):
serán los dispositivos mecánicos en algún momento capaces de imitar la competencia humana en la lectura/interpretacion de movimientos labiales en cualquier lengua natural?

espero haber sabido responder tu inquietud, y disculpa si me extendí demasiado.

saludos

Nico1920

DesaprobarAprobar0Nico1920 dijo el 29-4-2009 a las 13:39:

27

@Girar
¡Muchísimas gracias!

Deja tu Comentario

XHTML: Puedes usar: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>

Previsualizar comentario?