netzeitung.deSpam-Schutz für die Literatur

 Herausgeber: netzeitung.de

Davor ist selbst Recaptcha machtlos: von Spammern gefälschte Ikea-Rechnung (Foto: Tobias Schormann/dpa<br/>Quelle: NZ Netzeitung GmbH)

Lupe Davor ist selbst Recaptcha machtlos: von Spammern gefälschte Ikea-Rechnung
Foto: Tobias Schormann/dpa
Quelle: NZ Netzeitung GmbH

Mit Spammern Literatur erhalten: Der Schutz von Websites vor automatisierten Spam-Angriffen soll mit der Digitalisierung von Büchern einhergehen.

60 Millionen so genannte Captcha-Tests werden pro Tag von Internetnutzern ausgefüllt. Diese Zahl veröffentlichten Wissenschaftler der Carnegie Mellon University in Pittsburgh. Captcha-Tests sind leicht verzerrte Buchstaben-Zahlen-Kombinationen. Weblogs, Foren und Portale schützen sich mit ihnen vor maschinell erzeugtem Spam. Nach Berechnung der Wissenschaftler gehen für die Eingabe dieser Tests mehr als 150.000 Stunden Arbeit pro Tag drauf.

Die Forscher um Professor Manuel Blum wollen diese Zeit für einen sinnvollen Zweck nutzen. Dafür haben sie ein System namens Recaptcha entwickelt. Bei jedem Captcha-Test sollen künftig zwei Wörter eingegeben werden. Das eine dient wie bisher als Schutz vor maschinellem Spam. Das andere stammt aus einem eingescannten Buch, das fürs Internet digitalisiert wird.

Die gescannten Texte stellt das amerikanische Internet Archive bereit. Es digitalisiert seit Jahren im Rahmen der Open Content Alliance große Buchbestände mit abgelaufenen Urheberrechten. Sie werden anschließend kostenlos ins Netz gestellt.

Bisher konnten Computer beim Scannen eines alten Buchs häufig nicht alle Wörter erkennen. Recaptcha soll nun Abhilfe schaffen. Jedes unbekannte Wort wird in von meheren Usern in mehreren Tests verwendet. So soll die Fehlerquote gering gehalten werden.

Mit Unterstützung von Intel haben die Wissenschaftler unter Recaptcha.net einen kostenlosen Online-Dienst eingerichtet. Er erlaubt es Seitenbetreibern ihre Seiten mit Recaptchas bestücken. Lediglich große Websites mit vielen Besuchern sollen dafür bezahlen müssen.

Auch eine Erweiterung von Recaptcha ist bereits in Arbeit. Blinden und Sehbehinderten soll eine Audio-Version angeboten werden. Sie kann Teile von Radiosendungen erfassen, bei denen die Spracherkennung versagt hat. (nz/Golem.de)