Le petit secret de Captcha

Avez-vous déjà compté combien de fois vous avez déchiffré des petits caractères déformés et parfois illisibles pour les saisir dans un champ de saisie avant de pouvoir accéder au contenu souhaité? 10 fois? 20 fois? Impossible à dire… Rassurez-vous vous faites partie des 10% de la population mondiale qui a déjà eu affaire à l’une de ces mystérieuses images… Mais, a quoi cela sert-il? Question de sécurité! En êtes vous sûrs?


Il était une fois internet… A sa naissance, il était tout petit, et soyons honnête, un peu moche. Non non non, inutile de dire à ses parents qu’il était beau. Il était moche et ils le savaient. Ce qu’ils voulaient, c’était aider la communauté scientifique pour qu’elle puisse partager ses découvertes avec leurs collègues du monde entier. Avec les années, internet a bien grandi et de plus en plus de super fonctionnalités sont venu améliorer son ordinaire. Puis les premiers parasites sont arrivés. LES ROBOTS!

exchange-bot Au début, ils étaient très utiles et manipulés avec bienveillance… Malheureusement, des personnes mal intentionnées ont commencé à développer des bots informatiques nuisibles et indésirables. Pour s’en défendre, Dr. Développer a mis au point un test qui permet de savoir si la personne qui souhaite accéder au contenu est un humain ou un robot : le CAPTCHA (Completely Automated Public Turing test to Tell Computers and Humans Apart).

Avec les années, le nouvel ami d’internet a grandi et il a commencé à se diversifier. Et secrétement, de simple rémède anti-parasites, il est devenu très utile comme outil pour améliorer la numérisation des ouvrages et la reconnaissance des textes par les gentils bots. Ces derniers référencent le contenu et aide internet à s’en sortir dans la montagne de données qui encombre désormais sa maison.

Une participation forcée

Ce secret bien gardé utilise les humains, habitués depuis de longues années à remplir des champs de Captcha à des fins de sécurité, pour aider les ordinateurs dans le processus de reconnaissance des caratères contenus dans des fichiers PDF ou JPG.

Concrètement comment cela marche ?

  1. On montre une image avec 2 mots déformésreCaptcha-WTF-challenge-accepted_fb_82537
  2. Le système propose un mot qu’il connaît déjà et un mot qu’il aimerait apprendre à lire
  3. L’humain remplit le champ de réponse avec les 2 mots
  4. Si le premier mot correspond à ce que l’ordinateur connaît déjà, alors sa reconnaissance de la seconde suite de caractères sera sûrement correcte donc l’ordinateur enregistre la réponse
  5. En collectant plusieurs interprétations de plusieurs humains, l’ordinateur vérifie que la réponse est juste et il peut lire cette suite de caractères dans le ou les livres numérisés qu’il a en stock.

En terme académique, c’est une des formes de crowdsourcing. L’utilisation de la sagesse des foules, dans ce cas involontaire et forcée, peut se révéler très utile pour accomplir des tâches fastidieuses et répétitives mais hautement utile pour faire avancer une technique ou une méthode. Dans notre cas, le Captcha permet donc de servir deux buts, le premier étant la protection du contenu contre les parasites et de l’autre l’amélioration de l’accès à d’autres ressources qui aurait sans cette solution pris beaucoup plus de temps à être mise en place. D’aucun pourrait s’interroger sur cette exploitation de main d’œuvre gratuite (750 millions de participants) non transparente. Cependant, l’intérêt du public pour une amélioration de la numérisation des ouvrages est évident car il profite d’un meilleur accès à la connaissance mais il pose également la question de la transparence. Peu de gens connaissent cette utilisation “secrète” des Captchas et il serait de bon ton que le public puisse avoir le choix de participer à ce processus ou non.

Et si on gravait nos slogans dans la tête des gens?

Évidemment, le nouvel ami d’internet a aussi vu des êtres malveillants profiter de sa popularité pour trouver d’autres utilisations un peu moins “philanthrope” de son principe. Cette nouvelle utilisation qui consiste à remplacer le Captacha traditionnel par une pub est expliquée dans cette vidéo :

Bref…

Ce que l’histoire d’internet et le secret de Captcha nous montre c’est que la participation forcée au crowdsourcing est possible pour des tâches largement acceptée comme normale et nécessaire par la majorité de la population et que son usage peut être aussi bien utile pour tous ou simplement détourné à des fins plus lucratives.

“He decided to harness that power into what is undoubtedly one of the biggest crowdsourcing projects of all time. He decide to have humans all over the world digitize books for free.”

Keith Rozario à propos du projet ReCaptcha

 

Auteur : Aline Ecuyer

A lire aussi :
A Hybrid Method for Image Taxonomy: Using Captcha for Collaborative Knowledge Acquisition: http://www.aaai.org/Papers/Symposia/Fall/2006/FS-06-06/FS06-06-003.pdf
Pour ou contre les Captchas : http://icp.ge.ch/sem/cms-spip/spip.php?article1028
5 mind blowing things crowds do better than experts : http://www.cracked.com/article_19431_5-mind-blowing-things-crowds-do-better-than-experts_p2.html
Pour aller plus loin (vraiment plus loin) sur le crowdsourcing : http://www.juratic.com/bibliotheque/EDI/crowdsourcing.pdf

Sources :
CAPTCHA : https://fr.wikipedia.org/wiki/CAPTCHA
Psitt,Google vous utilise à votre insu pour numériser des livres :  http://rue89.nouvelobs.com/2011/10/18/psitt-google-vous-utilise-votre-insu-pour-numeriser-des-livres-225651
Le CAPTCHA devient une publicité : http://korben.info/et-le-captcha-devient-publicite.html
Why ReCaptcha works: The 4 requirements of Crowdsourcing : https://www.keithrozario.com/2011/12/recaptcha-4-requirements-crowdsourcing.html
Solve Media CAPTCHA Type-IN : https://vimeo.com/15041038

Sources images :
Des exemples de Captchas : http://pix.toile-libre.org/upload/original/1327269897.gif
Le petit robot : http://findercdn.com.au.s3.amazonaws.com/finder-au/wp-uploads/2015/09/exchange-bot.jpg
Un exemple de captcha : http://img.memecdn.com/reCaptcha-WTF-challenge-accepted_fb_82537.jpg