Prospěšná Captcha

Kamarád mi poslal odkaz na zajímavý článek. Jistě všichni znáte ochranu zneužití veřejně dostupných formulářů pomocí CAPTCHA. Koneckonců je většina z nás má na svých blozích po tom, co nám začaly chodit spamové komentáře k článkům. Pánové z Carnegie Mellon University však našli způsob, jak tento otravný fenomén převést na něco, co je užitečné.

Na světě existuje ohromné množství tištěné literatury, které se snaží archiváři digitalizovat, aby se zachovaly pro budoucí generace. Při digitalizaci se používá OCR pro rozeznávání textového obsahu. OCR však není v řadě případů úspěšné - prostě nedokáže rozeznat napsané slovo (podle statistiky 1 z 10). Výsledkem je tedy text, který je více či méně znehodnocený a je nutný lidský zásah, aby byl původní text zkompletován.

Právě k rozeznávání špatně čitelných slov, se kterými si nedokáže AI poradit se dají využít Captchi. Princip je geniálně jednoduchý - slova, která se nepodařilo OCR identifikovat jsou jako obrázky distribuovány na web servery, které je použijí jako Captchi. V každé Captcha budou vždy dvě slova - jedno, které se OCR nepodařilo identifikovat a druhé, které se podařilo. Na slovo, které se podařilo OCR identifikovat jsou aplikovány filtry pro zhoršení rozeznání slova (aby bylo ostatním AI stíženo čtení tohoto slova). Uživatelský vstup je potom porovnáván pouze s tím správně identifikovaným slovem - znění druhého slova je po rozluštění člověkem naopak posláno zpět na CMU k doplnění do původního textu. Aby bylo možné považovat rozluštění za důvěryhodné - minimálně dva lidé se musí shodnout na stejném znění tohoto slova. Pokud se neshodnou, je automaticky podstrčeno dalším lidem, dokud není dostatečná shoda na jeho znění.

Tahle myšlenka ve mě utvrzuje pocit, že geniální věci jsou často tak prosté. Zajímalo by mne, jestli si články na BBC čtou i naši archiváři …

Zdroj: BBC NEWS
Carnegie Mellon University zpráva CMU

Aktualizace k 13.1.2008: Na blogu jsem nasadil plugin reCaptcha, který je reálnou ukázkou tohoto principu. Více o tom, jak plugin funguje se dočtete na stránkách autorů.

Podělte se s ostatními:
  • Digg
  • del.icio.us
  • De.lirio.us
  • Technorati
Ohodnoťte článek:
Takovéhle články už radši ne!Nic nového pod sluncem.Průměr - obsahuje zajímavé střípky informací.Hodnotný článek - lecos nového jsem se dozvěděl.Skvělý článek - informace se mi dost hodí. (1 hlasů, průměrně: 5 z 5)
Loading ... Loading ...

1 reakce to “Prospěšná Captcha”

  1. 3rojka:

    Pěkný nápad. Nevím proč, ale jenom mě to tak napadlo, kdy asi tohle začnou zneužívat spameři :-(. Snad se do té doby alespoň podaří pčelouzkat kousek té knihovny.

  2. Novoj:

    Teď mi došlo, že možná to druhé slovo, se kterým se porovnává vstup uživatele (to které známe) nebude slovo, které bylo úspěšně OCR SW rozeznáno (s aplikováním nějakých distorčních filtrů), ale možná spíš slovo, které se OCR nepodařilo rozeznat, ale již bylo v předchozí době lidmi “odkryto”. Tzn. že se v CAPTCHAs neobjeví žádné slovo, které by se podařilo OCR správně identifikovat.

    V takovém případě si nějak nejsem vědom možnosti zneužití. Nikdy by nebyl prezentován, který automat dokázal rozlousknout.

Nechte zde svůj komentář

Opište prosím text z obrázku: