Informática

Lo que sabes y no sabes captcha

27 marzo, 2013

Seguro que la mayoría de los lectores de este blog, han tenido que rellenar muchas veces formularios captcha para poderse dar de alta en una web o conseguir  realizar una determinada acción en una web, etc…  Un captcha no deja de ser un pequeño juego, un pequeño test, que nos solicita la resolución de un texto para comprobar que la persona que rellena el formulario es una persona y no una máquina.

Se estima que se suelen rellenar unos 200 millones de Captchas al día. Antiguamente un formulario podía ser rellenado miles de veces por segundo con un programa de ordenador consiguiendo así tener infinitas ventajas y eso conllevaba muchos problemas para las empresas. Los ordenadores, aunque sean muy potentes, todavía no son capaces de interpretar imágenes y los humanos si.  Hasta aquí lo que posiblemente sabía el lector de los captcha.

Pero lo que no sabían es que su creador, Luis Von Ahn, realizó una evolución de los captchas tradicionales. Es lo que el llamó el proyecto “Recaptcha” (que vendió por una suculenta cifra a Google). ¿Qué es Recaptcha? , posiblemente si han rellenado un formulario últimamente habrán visto que el captcha individual se ha convertido en un capucha doble, formado por 2 palabras. Una de las palabras (no se sabe nunca si es la primera o la última) pertenece a la base de datos de los captchas correctos que los usuarios habían rellenado correctamente en los últimos 5 años  ¿y el segundo? . Aquí viene lo curioso, resulta que a Luis Von Ahn le encargó una empresa muy importante el digitalizar todos los libros del mercado para introducirlo en sus libros digitales.

Con los libros modernos no hay problema pero… ¿qué pasa con los libros antiguos?.  A pesar de que el proyecto tenía un presupuesto espectacular, se dieron cuenta que incluso con los ordenadores y escáneres más potentes del mercado, el OCR utilizado solo era capaz de traducir el 30% de las palabras de los libros antiguos de mas de 50 años (porque la tinta se ha desgastado, las páginas se han deteriorado,etc…) . Así que ¿Qué se le ocurrió a Luis Von Ahn?… unir ambos proyectos.

Individualizó cada una de las palabras que los escáneres y ordenadores que no había podido digitalizar y las metió en una base de datos.  De allí saca Recaptcha la segunda palabra. El programa realiza un control con una de las 2 palabras (no nos dice cual) y si esa primera palabra  es correcta, ya nos considera humanos (y no ordenadores), así que por la fé de que estamos obrando correctamente, siempre nos dará la segunda por correcta (sea o no sea correcta) y será la palabra digitalizada del libro.

Esta misma palabra se repite para 10 captchas diferentes de 10 personas diferentes. Cuando las 10 personas coinciden en la respuesta, el proyecto “Recaptcha” la considera correcta y supera el nivel de seguridad de calidad.

Se estima que se digitalizan por este medio, unas 100 millones de palabras diarias lo que supone 2 millones de libros al año. Así que cuando estamos rellenando un captcha, y sea doble, estarás ayudando a informatizar un libro muy antiguo que posiblemente algún día leas en tu libro digital…

Post publicado por:  Jorge Tafalla

Puedes compartir este artículo en:
    Deja un comentario

    Información básica acerca de cómo protegemos tus datos conforme al Reglamento General de Protección de Datos (Reglamento UE 2016/679) y en la Ley Orgánica 3/2018, de 5 de diciembre, de Protección de Datos Personales y garantía de los derechos digitales

    De conformidad con lo establecido en el Reglamento General de Protección de Datos, te informamos de:

    - Quien es el responsable del tratamiento: SEAS, Estudios Superiores Abiertos S.A.U con NIF A-50973098, dirección en C/ Violeta Parra nº 9 – 50015 Zaragoza y teléfono 976.700.660.

    - Cuál es el fin del tratamiento: Gestión y control de los comentarios del blog de SEAS. 

    - En que basamos la legitimación: En tu consentimiento.

    - La comunicación de los datos: No se comunicarán tus datos a terceros.

    - Los criterios de conservación de los datos: Se conservarán mientras exista interés mutuo para mantener el fin del tratamiento o por obligación legal. Cuando dejen de ser necesarios, procederemos a su destrucción.

    - Los derechos que te asisten: (i) Derecho de acceso, rectificación, portabilidad y supresión de sus datos y a la limitación u oposición al tratamiento, (ii) derecho a retirar el consentimiento en cualquier momento y (iii) derecho a presentar una reclamación ante la autoridad de control (AEPD).

    - Los datos de contacto para ejercer tus derechos: SEAS, Estudios Superiores Abiertos S.A.U. C/ Violeta Parra nº 9 –
    50015 Zaragoza (España) o través de correo electrónico a lopd@estudiosabiertos.com

    - También puedes ponerte en contacto con nuestro Delegado de Protección de Datos en dpd@estudiosabiertos.com

    Información adicional: Puedes consultar la información adicional y detallada sobre nuestra política de privacidad