Microsoft Academic Summit 2007 (Parte 2)

Microsoft Academic Summit 2007 (Parte 2)

por

Hay un viejo adagio que dice así “Más tarde que nunca y no hay plazo que se cumpla”, y esto es lo que le pasó a este artículo, una parte que debiera haber salido ante, pero por motivos personales tuve que retrasarla, pero de todas forma esta entrega no es obsoleta, ya que habla de las tecnologías futuras que se vienen en el campo multimedia.

La Revolución Multimedia

La charla que cubrimos en el segundo dia del Microsoft Academic Summit fue la de multimedia, la cual fue llevada a cabo por Alex Acero. Alex Acero es un investigador de Microsoft del área administración, trabaja en los grupos de Speech Technology, Natural Language Processing, Communication and Colaboration Systems e Interactive Visual Media, posee 29 patentes de USA y alrededor de 140 publicaciones. 

Habló de las tecnologías actualmente Microsoft esta desarrollando hoy en día, pero antes de presentar estas investigaciones, empezó con un avance sobre los saltos en multimedia que se han dado en el ultimo tiempo hasta ahora, para luego mostrar los avances que les mostramos a continuación.

Audio

En el audio podemos destacar la mejora en el software de reconocimiento de voz y a su vez, las nuevas capacidades que se la han dado, como por ejemplo poder navegar a través de la interfaz grafica usando solo la voz, una caracteristica incorporada en Windows Vista.

También han mejorado la tecnología que se usa en este tipo de software para usarlo en ambientes ruidosos. En este apartado, se creo un nuevo tipo de audífono, el cual es muy parecido a los audífonos de secretaria, pero en vez de tener un segundo parlante en la parte opuesta del audífono, se coloco un micrófono de contacto, el cual tiene el objetivo de solo captar las vibraciones de la piel de la persona cuando esta habla. Esto unido con el micrófono común y corriente mas un algoritmo, permite al computador que solo capte las señales sonoras que solo emite el usuario y no alguna señal que provenga de otro lado. 

Muestra de sonido (Mic contacto) 

Como podrán escuchar en la muestra de sonido, notarán que esta tecnología reduce eficazmente el ruido ambiental

Del mismo modo se mostro un algoritmo que tiene la función de separar ondas sonoras de fuentes distintas, llamado “Blanc Source Separation”, esta tecnología usa varios micrófonos – dos o más – y utilizando un modelo estadístico las separa. Les dejo los siguientes ejemplos que grabe incluyendo la explicación del mismo Alex para que puedan ustedes apreciarlo de mejor manera. 

Muestra sonido (separación audio) 

Después entro en otro apartado del audio, mas específicamente en el mundo de los podcast, para los que no sabe que es un podcast es una emisión de un programa grabado y enviado por internet, sus estilo es muy similar al de un blog, ya que deriva de este y también se podría llamar como otro hijo de la web 2.0. Volviendo al tema, habló de lo que uno tarda en hacer un podcast y que se pierde mucho tiempo en la edición del podcast, un usuario para hacer 15 min de programa, necesita invertir al menos 3 horas, lo cual es una gran perdida de tiempo, por eso crearon un programa para facilitar la creación de podcast, muy fácil de usar, al estilo del Windows Movie Maker, la gran novedad de este programa es que hace uso de la tecnología de reconocimiento de voz, la principal ventaja de esto es que reconoce cada palabra que uno dijo, y después si se quiere borrar alguna palabra del podcast que uno repitió o tartamudeo, lo hace simplemente borrando esa palabra, el software se encarga automáticamente de hacer la edición y reacomodar el audio para que no queden espacios vacios, esta maravilla funciona aun si el programa reconoció erróneamente la palabra, ya que el programa de por si ya reconoce el espacio que usa la palabra. 

Otra investigación, es la generación de multimedia de forma sintética, en particular la generación de voz sintética, y para darle una forma más natural se esta trabajando en agregarle acento a la voz, como pueden escuchar en el siguiente Wav: 

Muestra Sonido (voz Harryp)

Video

En el apartado del video, se mostró una tecnología para las webcams de bajo coste, la cual es un sistema de procesamiento que mejora notoriamente la calidad de imagen de la transmisión, en mi opinión la mejora es bastante notoria, pero lamentablemente no tengo fotografías del cambio de calidad.

Transmisión de información multimedia:

Otro tema en el que trabajan  es el de transmisión de video en tiempo real, esto implica usar un gran ancho de banda para enviar la información desde el servidor hasta al usuario, pero hay un problema, A diferencia del video analógico, el video digital se detiene cuando tiene una pérdida de paquetes (Mensaje de cargando Buffer), y si esto lo pasamos a lo que es la televisión por internet y los servicios como Youtube, webcam y otros suele ser muy molesto. Para contrarrestar esto han diseñado un sistema P2P para transmitir los videos, la lógica a usar sería muy parecida a la de Bittorrent, el servidor haría de Tracker, y este seleccionaría a los Peers que están mas cerca en relación al ancho de banda que puedan dar, y en caso de que el ancho de banda ideal no lo puedan satisfacer totalmente los Peers, el servidor empieza a suplementar con la información faltante cuando sea necesario. Gracias a esta tecnología se podrá acceder a contenido mucho más rápido y a la inversa de lo que pasa cuando un archivo o video esta siendo muy solicitado, que es imposible verlo porque esta saturado el servidor, el video o el archivo se podrán obtener de manera más expedita, y esta tecnología también incluye ventajas para el proveedor del servicio, ya que no necesitara gigantescas cantidades de ancho de banda exclusivo ni potentes servidores ara dar el mismo servicio, por lo que abarata costos. El único problema actual para su implementación es el llamado NAT (Network Address Table) ya que a veces hay u firewall entre medio y se deben realizar algunas operaciones especiales para lograr la conexión. (Nota personal: ISP Junten frío, ya los p2p ya no son sólo para piratear). 

Ahora con el advenimiento de la televisión digital, podemos llegar a resoluciones más altas (1080p por ejemplo) pero esto debe tener un gran ancho de banda, se está trabajando en la estimación del ancho de banda, esta estimación tiene por objeto poder ver los videos en tiempo real aún cuando el ancho de banda haya disminuido (ya que si vemos un video HD en a través de una transmisión no my buena, podemos encontrarnos que la transmisión va a ser incluso, por que si la viéramos de a través de una transmisión análo
ga). Lo que se piensa hacer para llegar a esto es tomar el video y poder transformarle la resolución dinámicamente, así cuando haya un mayor ancho de banda suba su resolución automáticamente. 

Con a llegada de la web 2.0 y cada vez mayores anchos de banda, la internet se ha llenado de videos, y esto ha creado el problema, de búsqueda de información en ellos. Actualmente los buscadores sólo pueden leer los comentarios, descripción y tags de los vídeos, pero no pueden “leer” el contenido en ellos. Para solucionar este problema han creado un algoritmo que usa el reconocimiento de voz para “escuchar” a los vídeos y después entregar escrito como texto remarcado las palabras que nosotros estábamos buscando. 

Fotografía

Navegación de fotografías 

Cuando uno va de viaje, generalmente uno toma muchas fotos, especialmente ahora con las cámaras digitales. Lo más difícil cuando volvemos del viaje es poder representarles a nuestros parientes los lugares donde estuvimos, además la tarea de organizar todas las fotos que sacamos. El Interactive Visual Media Group ha creado una poderosa herramienta llamada Photosynth.

Photosynth nos permite organizar nuestras fotos de una manera rápida y expedita, pudiendo así encontrar las fotografías fácilmente, su mayor fortaleza es que con las fotos de un mismo lugar las puede relacionar y crea un entorno en 3D con las fotos, con lo cual puedes navegar y visitar ese lugar cuando uno quiera, el programa se encarga automáticamente viendo las fotos, de relacionarlas y unirlas para crear el entorno en 3D, también el programa se puede enlazar con Wondows live local para sobreponer el escenario generado sobre el mapa y así tener una mejor perspectiva, como se muestra en la foto. Este programa aún no esta disponible para el público en general, pero hay una demo interactiva con varios ejemplos para que puedan probar el programa.

Video demostración

Demo Interactiva Photosynth  
 

HD View

HD View es un visor creado también por el IVMG, este programa ayuda con la interacción de imágenes muy grandes (y cuando digo grandes no es que sean de 20 MP, sino de ¡1 Giga pixel!), la navegación de las fotos es muy similar al de Google Earth. Otra característica del programa es que también crea las photos HD a partir de una cámara digital común y corriente. Una imagen vale más que 1000 palabras, así que les dejo este link que también los lleva a una demostración interactiva de esta tecnología.   

HD View    

Interactive Video Tours 

La primera vez que yo pude apreciar tours virtuales fue a través de la Encarta, en ella vi las primeras fotos en 3D en que uno podía ver en 360 grados desde un punto preestablecido todo el paisaje que había alrededor. El tiempo ha pasado y esto ha evolucionado hasta el punto en que podemos podemos movernos dentro de la imagen y recorrer la habitación y lo mas sorprendente que se puede recorrer el espacio en 3D, para que puedan mejor prescencialo, hagan clic en el siguiente link.

Video de Interactive Video Tours