Google adquiere reCAPTCHA: Enseñando a leer a la máquina

Prueba de Turing pública y automática para diferenciar máquinas y humanos

El día de ayer Google compró reCAPTCHA, un sistema desarrollado originalmente por la Universidad de Carnegie Mellon y que más tarde se convirtió en una compañía sólida encargada de proporcionar CAPTCHAS o bien letras cifradas que fueran difícilmente interpretadas por bots. De esta manera ayuda a proteger más de 100,000 sitios de spam y fraude, ¿Recuerdan el caso de Christopher Poole (aka moot ó la persona más influyente del mundo)?.

Pero la importancia de la empresa radica no solo en la implementación de un servicio Web gratuito para brindar CAPTCHAs en lenguajes de programación como PHP o plugins para Wordpress, sino en el método que utiliza para brindar esta imágenes que solo los humanos pueden interpretar y que al mismo tiempo ayuda a digitalizar textos.

Dado a que lo textos digitalizados generalmente provienen de los archivos escaneados periódicos y libros antiguos, a los programas de OCR les resulta difícil reconocer estas palabras porque la tinta y el papel se han degradado a lo largo del tiempo, pero si estas se convierten en CAPTCHAs para resolverse por humanos se simplifica el proceso de reconocimiento.

Sistema reCAPTCHA

El texto escaneado es objeto de análisis por dos diferentes programas de reconocimiento óptico de caracteres (OCR), en los casos en que los programas no están de acuerdo la imagen/palabra en cuestión se convierte en un CAPTCHA. La palabra se muestra junto con una palabra de control ya conocida, entonces el sistema asume que si los humanos escriben la palabra de control correctamente, la palabra en cuestión también es correcta.

La identificación realizada por cada programa de OCR se le da un valor de 0.5 puntos y cada interpretación de un humano le da un punto completo, cuando la identificación alcanza 2.5 votos la palabra es considerada válida, al mismo tiempo que son recicladas constantemente como palabras de control.

Cerca de 200 millones de CAPTCHAs son resueltos por humanos alrededor del mundo cada día, es por eso que esta tecnología resulta muy valiosa para proyectos como Google Books y Google News Archive Search.

Actualmente reCAPTCHA está digitalizando los archivos del New York Times, Veinte años han sido digitalizados y el proyecto espera tener los 110 años efectuados en 2010.

Ahora “la maquina” de Google no solo almacenrá datos y conocerá tu perfíl como consumidor, sino que también aprenderá a leer con nuestra ayuda.

Link: Scanning For Google Books And Google News (TechCrunch / Gracias Fernando)

Compartir Compartir
Publicado por Boxbyte el 17 de September 2009 en la categoría Internet, Software con los tags , , , , . Tiene 36 comentarios.

36 Comentarios

Google adquiere reCAPTCHA: Enseñando a leer a la máquina

Deja tu Comentario ↓
NotLim

DesaprobarAprobar20NotLim dijo el 17-9-2009 a las 05:38:

1

Interesantísimo. Genial, genial. No tenía idea que usaban los captcha para digitalizar lo indigitalizable…

Azyn

DesaprobarAprobar9Azyn dijo el 17-9-2009 a las 05:44:

2

Vaya, todos los dias se aprende algo nuevo, esto si que no me lo sabia.

Excelente por Google.

Iván

DesaprobarAprobar10Iván dijo el 17-9-2009 a las 06:18:

3

Interesante. Pensaba sólo era para evitar los Boot en los sitios donde se necesita registro. Como dice el amigo siempre se aprende algo nuevo.

Marco

DesaprobarAprobar19Marco dijo el 17-9-2009 a las 06:51:

4

google se esta introduciendo en todo y adueñando de todo

en el Futuro google creara a “SkyNet” estoy seguro

y el primer paso es enseñar a leer a la maquina O_O!

serroba

DesaprobarAprobar4serroba dijo el 17-9-2009 a las 07:42:

5

Independiente del tremendo poder que esta adquiriendo la gran G, mi comentario va por la idea del uso del reCAPTCHA. Para mi era tema desconocido el uso de reconocimiento de palabras, o sea la idea la encontre genial.

Y esta claro que esto potenciara enormemente a Google

Ver Comentario... JP dijo el 17-9-2009 a las 08:00 ...

Marco

DesaprobarAprobar1Marco dijo el 17-9-2009 a las 08:01:

7

ahora aparte de ver publicidad en youtube, mailbox y en el buscador entre otros

vendrá en forma de captcha y tendremos que escribirla

jaja de alguna forma le sacaran dinero digo yo xD!

Ver Comentario... Matias dijo el 17-9-2009 a las 08:28 ...

rhys

DesaprobarAprobar2rhys dijo el 17-9-2009 a las 09:17:

9

Marco: mucho termineitor xD pero espero que no tengas rason o.O

IO

DesaprobarAprobar1IO dijo el 17-9-2009 a las 09:42:

10

@Boxbyte: ¿el tema del reconocimiento de palabras para OCR es exclusivo de reCAPTCHA o es general para todos los sistemas de CAPTCHA?

Cristian Alister

DesaprobarAprobar2Cristian Alister dijo el 17-9-2009 a las 09:43:

11

buen articulo, ta super interesante. la idea seria encontrar agentes inteligentes que reconozcan de manera mas nativa este tipo de texto.

mastermind

DesaprobarAprobar2mastermind dijo el 17-9-2009 a las 10:24:

12

y Google idea un buen uso para el peor invento en el universo

MarioEGT

DesaprobarAprobar2MarioEGT dijo el 17-9-2009 a las 10:33:

13

Los captachas estan realizados de forma que solo el humano pueda distinguir la letra o numero detras de un tramado incoherente, quizas se desarrolle un algoritmo que pueda solucionar este problema pero no en el corto plazo.

Dani

DesaprobarAprobar-1Dani dijo el 17-9-2009 a las 10:36:

14

No quiero ayudar a Google, ellos se la pueden solitos :)

gnuTrade

Felipe Díaz

DesaprobarAprobar0Felipe Díaz dijo el 17-9-2009 a las 10:46:

15

A mi me parece algo estupendo, llevado a soluciones, un ciego podría leer incluso cartas de amor dirigidas a él ayudado por una máquina y captcha

CHILEHD

DesaprobarAprobar2CHILEHD dijo el 17-9-2009 a las 10:59:

16

Goocaptcha is up on us!

Igual no es tan certero el recaptcha derepente pongo una letra equvocada y entra igual hehe

PorLaChucha

DesaprobarAprobar5PorLaChucha dijo el 17-9-2009 a las 11:42:

17

ta weno pa leer las recetas medicas jeje (o no se la puede?) :o

Patricio Lopez

DesaprobarAprobar-1Patricio Lopez dijo el 17-9-2009 a las 11:43:

18

Ingeniosa forma de usar los captchas

Luisk.

DesaprobarAprobar-1Luisk. dijo el 17-9-2009 a las 12:05:

19

google va a dominar al mundo :(

Rakso

DesaprobarAprobar7Rakso dijo el 17-9-2009 a las 13:28:

20

Donde dice “(aka moot ó la persona más influyente del mundo)”, esa O no debería llevar acento, lo siento pero es que me incomoda ver faltas de ortografía, más si es en un medio tan masivo como este.

xunxito

DesaprobarAprobar0xunxito dijo el 17-9-2009 a las 14:04:

21

estoss de google son unos genios

CientoTrece IT Blog » Google compra reCapcha

DesaprobarAprobar-1CientoTrece IT Blog » Google compra reCapcha dijo el 17-9-2009 a las 14:08:

22

[...] Vía CientoTrece: FayerWayer [...]

sakuretsu

DesaprobarAprobar-5sakuretsu dijo el 17-9-2009 a las 14:13:

23

¿Y con esto gano yo plata?

Tomás Alejandro+Del+Bianco

DesaprobarAprobar0Tomás Alejandro+Del+Bianco dijo el 17-9-2009 a las 15:21:

24

Si todo en el mundo estaria armado desde un punto de vista TAN inteligente este…

Odin

DesaprobarAprobar-3Odin dijo el 17-9-2009 a las 15:24:

25

Tengo miedo, tengo miedo, tengo miedo. Google es el diablo y claro, el “próximo” gran monopolio. :S

Ratser

DesaprobarAprobar3Ratser dijo el 17-9-2009 a las 16:19:

27

¿Captcha para digitalizar documentos? En serio que cada dia se aprende algo nuevo, al menos eso Dicen™.

JAvier

DesaprobarAprobar-1JAvier dijo el 17-9-2009 a las 19:31:

28

que onda no entendí nada, sorry es que soy medio tonto, alguien que explique resumidamente lo q significa todo esto??????

Fco.

DesaprobarAprobar0Fco. dijo el 17-9-2009 a las 19:56:

29

O sea que yo podría escribir una de las palabras de forma correcta y la otra, adrede, de manera incorrecta e igual me daría acceso el sistema. Sólo necesitaría achuntarle a la palabra de control y escribirla correctamente.

Boxbyte

Boxbyte dijo el 17-9-2009 a las 21:04:

30

@IO
El OCR y el CAPTCHA son temas aparte, solo que aquí los sistemas OCR cuando no se ponen de acuerdo en la digitalización usan esa imagen (porcion del texto) la convierten en CAPTCHA para que mediante ayuda del humano en la implementación se le de una intepretación válida.

Los sistemas OCR los puedes encontrar muchas veces en el software que se incluyen en los nuevos Escáners, como es el caso ReadIRIS. Los que han tenido oportunidad de probar un software de estos saben cuando digityalizas una imagen o texto, siempre se genera básura en el texto, así como no s epuede confiera la 100% en ellos.

@Odin
Google has a dark side too

Saludos!

Guinda

DesaprobarAprobar-2Guinda dijo el 17-9-2009 a las 23:04:

31

Supongo que lo van a implementar en sus sistemas y sacarán el captcha de colores que tienen…

freeze

DesaprobarAprobar-3freeze dijo el 17-9-2009 a las 23:59:

32

ReCAPTCHA es genial, siempre lo uso cuando creo un sitio con drupal

jado92mx

DesaprobarAprobar-2jado92mx dijo el 18-9-2009 a las 00:04:

33

exelente, esto va por buen camino; hacemos que les enseñen a nuestra máquina, para que luego nuestra máquini les enseñe… QUIEN MANDA!

atte: Google

Antonio

DesaprobarAprobar8Antonio dijo el 18-9-2009 a las 01:15:

34

@Marco

Que John Connor nos ampare

Mapa de adquisiciones e inversiones de Google : Blogografia

DesaprobarAprobar0Mapa de adquisiciones e inversiones de Google : Blogografia dijo el 24-9-2009 a las 09:39:

35

[...] recientemente adquirió On2 Technologies y reCAPTCHA, por lo que este mapa nos da una idea del tipo de emprendimientos en los que Google se interesa y [...]

Mapa de adquisiciones e inversiones de Google | UR-VE.COM

DesaprobarAprobar0Mapa de adquisiciones e inversiones de Google | UR-VE.COM dijo el 24-9-2009 a las 12:29:

36

[...] recientemente adquirió On2 Technologies y reCAPTCHA, por lo que este mapa nos da una idea del tipo de emprendimientos en los que Google se interesa y [...]

Deja tu Comentario

XHTML: Puedes usar: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>

Previsualizar comentario?