
Prueba de Turing pública y automática para diferenciar máquinas y humanos
El día de ayer Google compró reCAPTCHA, un sistema desarrollado originalmente por la Universidad de Carnegie Mellon y que más tarde se convirtió en una compañía sólida encargada de proporcionar CAPTCHAS o bien letras cifradas que fueran difícilmente interpretadas por bots. De esta manera ayuda a proteger más de 100,000 sitios de spam y fraude, ¿Recuerdan el caso de Christopher Poole (aka moot ó la persona más influyente del mundo)?.
Pero la importancia de la empresa radica no solo en la implementación de un servicio Web gratuito para brindar CAPTCHAs en lenguajes de programación como PHP o plugins para Wordpress, sino en el método que utiliza para brindar esta imágenes que solo los humanos pueden interpretar y que al mismo tiempo ayuda a digitalizar textos.
Dado a que lo textos digitalizados generalmente provienen de los archivos escaneados periódicos y libros antiguos, a los programas de OCR les resulta difícil reconocer estas palabras porque la tinta y el papel se han degradado a lo largo del tiempo, pero si estas se convierten en CAPTCHAs para resolverse por humanos se simplifica el proceso de reconocimiento.

Sistema reCAPTCHA
El texto escaneado es objeto de análisis por dos diferentes programas de reconocimiento óptico de caracteres (OCR), en los casos en que los programas no están de acuerdo la imagen/palabra en cuestión se convierte en un CAPTCHA. La palabra se muestra junto con una palabra de control ya conocida, entonces el sistema asume que si los humanos escriben la palabra de control correctamente, la palabra en cuestión también es correcta.
La identificación realizada por cada programa de OCR se le da un valor de 0.5 puntos y cada interpretación de un humano le da un punto completo, cuando la identificación alcanza 2.5 votos la palabra es considerada válida, al mismo tiempo que son recicladas constantemente como palabras de control.
Cerca de 200 millones de CAPTCHAs son resueltos por humanos alrededor del mundo cada día, es por eso que esta tecnología resulta muy valiosa para proyectos como Google Books y Google News Archive Search.
Actualmente reCAPTCHA está digitalizando los archivos del New York Times, Veinte años han sido digitalizados y el proyecto espera tener los 110 años efectuados en 2010.
Ahora “la maquina” de Google no solo almacenrá datos y conocerá tu perfíl como consumidor, sino que también aprenderá a leer con nuestra ayuda.
Link: Scanning For Google Books And Google News (TechCrunch / Gracias Fernando)
Publicado por Boxbyte el 17 de September 2009 en la categoría Internet, Software con los tags Books, Captcha, Google, OCR, reCAPTCHA. Tiene 36 comentarios.
36 Comentarios
Google adquiere reCAPTCHA: Enseñando a leer a la máquina

20NotLim dijo el 17-9-2009 a las 05:38:
Interesantísimo. Genial, genial. No tenía idea que usaban los captcha para digitalizar lo indigitalizable…

9Azyn dijo el 17-9-2009 a las 05:44:
Vaya, todos los dias se aprende algo nuevo, esto si que no me lo sabia.
Excelente por Google.

10Iván dijo el 17-9-2009 a las 06:18:
Interesante. Pensaba sólo era para evitar los Boot en los sitios donde se necesita registro. Como dice el amigo siempre se aprende algo nuevo.

19Marco dijo el 17-9-2009 a las 06:51:
google se esta introduciendo en todo y adueñando de todo
en el Futuro google creara a “SkyNet” estoy seguro
y el primer paso es enseñar a leer a la maquina O_O!

4serroba dijo el 17-9-2009 a las 07:42:
Independiente del tremendo poder que esta adquiriendo la gran G, mi comentario va por la idea del uso del reCAPTCHA. Para mi era tema desconocido el uso de reconocimiento de palabras, o sea la idea la encontre genial.
Y esta claro que esto potenciara enormemente a Google
Ver Comentario... JP dijo el 17-9-2009 a las 08:00 ...

1Marco dijo el 17-9-2009 a las 08:01:
ahora aparte de ver publicidad en youtube, mailbox y en el buscador entre otros
vendrá en forma de captcha y tendremos que escribirla
jaja de alguna forma le sacaran dinero digo yo xD!
Ver Comentario... Matias dijo el 17-9-2009 a las 08:28 ...

2rhys dijo el 17-9-2009 a las 09:17:
Marco: mucho termineitor xD pero espero que no tengas rason o.O

1IO dijo el 17-9-2009 a las 09:42:
@Boxbyte: ¿el tema del reconocimiento de palabras para OCR es exclusivo de reCAPTCHA o es general para todos los sistemas de CAPTCHA?

2Cristian Alister dijo el 17-9-2009 a las 09:43:
buen articulo, ta super interesante. la idea seria encontrar agentes inteligentes que reconozcan de manera mas nativa este tipo de texto.

2mastermind dijo el 17-9-2009 a las 10:24:
y Google idea un buen uso para el peor invento en el universo

2MarioEGT dijo el 17-9-2009 a las 10:33:
Los captachas estan realizados de forma que solo el humano pueda distinguir la letra o numero detras de un tramado incoherente, quizas se desarrolle un algoritmo que pueda solucionar este problema pero no en el corto plazo.

0Felipe Díaz dijo el 17-9-2009 a las 10:46:
A mi me parece algo estupendo, llevado a soluciones, un ciego podría leer incluso cartas de amor dirigidas a él ayudado por una máquina y captcha

2CHILEHD dijo el 17-9-2009 a las 10:59:
Goocaptcha is up on us!
Igual no es tan certero el recaptcha derepente pongo una letra equvocada y entra igual hehe

5PorLaChucha dijo el 17-9-2009 a las 11:42:
ta weno pa leer las recetas medicas jeje (o no se la puede?)

7Rakso dijo el 17-9-2009 a las 13:28:
Donde dice “(aka moot ó la persona más influyente del mundo)”, esa O no debería llevar acento, lo siento pero es que me incomoda ver faltas de ortografía, más si es en un medio tan masivo como este.

-1CientoTrece IT Blog » Google compra reCapcha dijo el 17-9-2009 a las 14:08:
[...] Vía CientoTrece: FayerWayer [...]

0Tomás Alejandro+Del+Bianco dijo el 17-9-2009 a las 15:21:
Si todo en el mundo estaria armado desde un punto de vista TAN inteligente este…

-3Odin dijo el 17-9-2009 a las 15:24:
Tengo miedo, tengo miedo, tengo miedo. Google es el diablo y claro, el “próximo” gran monopolio. :S

-8Sergio dijo el 17-9-2009 a las 15:40:
Bing ya acapara el 10% de las busquedas en USA http://alt1040.com/2009/09/bing-de-microsoft-ya-tiene-10-del-mercado-de-buscadores-en-estados-unidos

3Ratser dijo el 17-9-2009 a las 16:19:
¿Captcha para digitalizar documentos? En serio que cada dia se aprende algo nuevo, al menos eso Dicen™.

-1JAvier dijo el 17-9-2009 a las 19:31:
que onda no entendí nada, sorry es que soy medio tonto, alguien que explique resumidamente lo q significa todo esto??????

0Fco. dijo el 17-9-2009 a las 19:56:
O sea que yo podría escribir una de las palabras de forma correcta y la otra, adrede, de manera incorrecta e igual me daría acceso el sistema. Sólo necesitaría achuntarle a la palabra de control y escribirla correctamente.
Boxbyte dijo el 17-9-2009 a las 21:04:
30@IO
El OCR y el CAPTCHA son temas aparte, solo que aquí los sistemas OCR cuando no se ponen de acuerdo en la digitalización usan esa imagen (porcion del texto) la convierten en CAPTCHA para que mediante ayuda del humano en la implementación se le de una intepretación válida.
Los sistemas OCR los puedes encontrar muchas veces en el software que se incluyen en los nuevos Escáners, como es el caso ReadIRIS. Los que han tenido oportunidad de probar un software de estos saben cuando digityalizas una imagen o texto, siempre se genera básura en el texto, así como no s epuede confiera la 100% en ellos.
@Odin
Google has a dark side too
Saludos!

-2Guinda dijo el 17-9-2009 a las 23:04:
Supongo que lo van a implementar en sus sistemas y sacarán el captcha de colores que tienen…

-3freeze dijo el 17-9-2009 a las 23:59:
ReCAPTCHA es genial, siempre lo uso cuando creo un sitio con drupal

-2jado92mx dijo el 18-9-2009 a las 00:04:
exelente, esto va por buen camino; hacemos que les enseñen a nuestra máquina, para que luego nuestra máquini les enseñe… QUIEN MANDA!
atte: Google

0Mapa de adquisiciones e inversiones de Google : Blogografia dijo el 24-9-2009 a las 09:39:
[...] recientemente adquirió On2 Technologies y reCAPTCHA, por lo que este mapa nos da una idea del tipo de emprendimientos en los que Google se interesa y [...]

0Mapa de adquisiciones e inversiones de Google | UR-VE.COM dijo el 24-9-2009 a las 12:29:
[...] recientemente adquirió On2 Technologies y reCAPTCHA, por lo que este mapa nos da una idea del tipo de emprendimientos en los que Google se interesa y [...]