CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart)は、Webサイトやフォーラム、メーリングシステムにアカウントやコンテンツが自動作成されるのを防ぐメカニズムのことです。大抵のCAPTCHAシステムは、歪ませた文字、テキスト、画像を生成して機能します。これらはヒトの脳なら簡単に認識できますが、コンピュータベースの光学式文字認識などの画像認識システムでは、今のところ困難と言われています。その一方で、スパマーはCAPTCHAの解読を常に試みています。また、プロスパマーのツールの新バージョンがWebで販売されているケースもあります。今回はそのCAPTCHA解読の主な手法につて取り上げましょう。
CAPTCHA解読ターンキーツールであるXRumer 5は、販売価格520ドル、最先端のCAPTCHA解読方法を収録しているとのことです。
スパマーは長い間、スパム送信用メールアカウントの偽造目的で、CAPTCHAメカニズムの突破を模索してきました。この新たな不正ユーティリティーのことを解説する前に、スパマーがこれまで用いてきたテクニックを振り返ってみましょう。
以下の画像(出典:XMCO)のとおり、一般的なCAPTCHAは、簡単に突破されてしまします。
第1の手法は、手作業での解読です。このようなサービスに従事しているのは、主に途上国の人々ですが、その競争は熾烈です。このサービスを扱っているフォーラムの中には、ベトナムやバングラデシュからの企画提案が大量に掲載されているものもあります。それぞれ、大量の人手を動員して24時間体制で数十万個のCAPTCHAを解読するとうたっており、価格はCAPTCHA1000件につき1~8ドルです。
第2の手法として、費用をかけずに個人に無償で解読してもらうというものもあります。CAPTCHA解読作業の見返りに「メリッサ(Melissa)」の服を脱がせるという、この一風変わったサービスをご記憶の読者もいることでしょう。この方法で、スパマーはYahoo Mailのアカウント偽造を成功させました。
また第3の手法としては、無料のWebサービスもあります。「CAPTCHA Killer」というサイトが提供しているのは、その無料サービスです。同サイトの設計者は、このサービスのことを、「米国の視覚障害者100万人」のために「インターネットのアクセシビリティを高めることだけが目的」と主張しています。同サービスはCAPTCHA解読の自動処理用APIを提供していますが、サイトのクロスリファレンスを読めば、「CAPTCHA KillerをMySpace.comで使用することは、MySpace.comのサービス規約違反です」と通告されています。
第4の手法として、極めて高度な技術的アプローチにより、各CAPTCHA画像と文字列を関連付けているレインボー・テーブルを使用する方法があげられます。2008年3月、マルク(Maluc)というニックネームを称する人物が、YahooやGoogle、Hotmailから大量のCAPTCHA画像をダウンロード、抽出、保存するPHPスクリプトを作成しました。スクリプトが完了すると、スパマーは、収集した画像を全部使用することにより、新しい認識テーブルの作成やOCRアルゴリズムの精度検証を行えるようになります。上手くいけば、新たなフットプリントとデータベース内のものを、わずか1000分の1秒で比較することが可能になります。ノイズを除去し、白黒画像化すると共に、セグメント(1セグメント当たり1文字)に分割して更に文字を識別するこのアルゴリズムには、1,500~5,000ドルの経費がかかります。
また第5の手法として、CAPTCHA解読サービスに依頼するという方法もあります。実際に、CAPTCHAシステムを解読するソフトウェアを開発したと話すのは、中国安徽省でプログラマーを務めるワンルン(Wangrun)氏です。このソフトウェアの料金は、CAPTCHA画像の複雑度に応じて決まるとのことですが、相場は約500~6,000ドルです。解読が極めて難しい画像の価格は提示されていませんが、「解読は可能」と同氏は述べています。また、顧客がこのデコーダーを使用する目的について言及を避けていますが、用途は「多種多様」だと述べています。
第6の手法として、スパマーがゾンビマシンを使用してCAPTCHAを解読することもあります。以前、危殆化したシステムで構成される大規模なボットネットが、Windows Live Mailのアカウント登録に利用された、というケースがありました。このボット(ウイルススキャンではGenerix.dxという名前で検出)は、アカウント登録のリクエストを行ってCAPTCHAを受信すると、即座にその画像を中央サーバーに送信します。そして、この中央サーバーが解読を試み、結果を返信します。この解読テクニックの成功率は当時35%前後だったとのことですが、大量の感染システムが繰り返し解読を実行したということは、その時点で、膨大な数のスパム用アカウントが新たに作成されたと考えられます。
最後に、7番目のCAPTCHA解読手法として、ターンキーツールをご紹介しましょう。その1つ、XRumer 5は、大量のメッセージを配信し、フォーラム、ゲストブック、ブログ、Wikiなどにリンクします。必須フィールドを自動検出して文字を入力するので、ブラウザは不要です。登録が必要なフォーラムなら、プログラムが登録とログオンを行い、スパマーによるテキストを投稿します。また、JavaScriptやピクトコード(ボックスに表示された数字を入力するもの)の保護や、メールでのアクティベーションによる保護も突破します。CAPTCHA画像が検出されると、プログラムがこの画像を自動的にダウンロードして分析し、フォームに文字を入力します。
作者によると、XRumer 5は、VBulletin、IPB、phpBBといった人気エンジンの最新バージョンで機能するとのことです。また、投稿用のgmail.comのアカウントも作成可能です。ユーザーも満足しているらしく、以下のようなコメントもありました。「たったの500ドルとは、非常に安い。自分が値段を付けるとしたら、2,000ドルどころじゃ済まないでしょう。gmailのCAPTCHAを解読するとは見事です。私は、そのためだけにOCR開発者に4,000ドル支払いましたから…」
XRumerは、下の画像にあるような「複数の画像からネコを選ぶ、ネコ認証」も解読できます。
またXRumer 5の作者は、多数のフォーラムを分析して、この種のCAPTCHAの大半が同一画像を使っていることが判明したとも述べています。作者は、XRumerはバイト数で画像を識別できると述べた上で、次のように結論づけています。「非常に簡単なことだと思いませんか。画像を歪ませることができるかって?アルゴリズムを改良するのに、時間は十分にあります。我々はフォーラムやブログ、ゲストブックをずっと分析し続けています。ひとつ重要なことがあります。この種のCAPTCHAが使用されているサイトは、リソースのせいぜい0.01%(1万サイト)です」
マルウェアの作成は、既にビジネスとして成立しています。また、調査で行き着いた国はロシアです。ロシアでは、犯罪者が悪意のあるソフトウェアを作成・利用し、更にはなりすまし犯罪やバーチャル売春に関わっています。
XRumerの背後にいる会社(あるいは個人)は、2007年に「CyberLover.ru」という自動セックストークサービスを提供していたところと同一のようです。調べたところ、アレクサンダー・リャブチェンコ(Alexander Ryabchenko)という名前が判明しました。2007年にメディアが同氏を取り上げた際、同氏は、CyberLoverのコンセプトを理由に、なりすまし犯罪で告訴されることはあり得ないという主旨のメールをロイター通信に送付していました。「このプログラムで検出できる情報は、ユーザーが提供しようとして提供しているものにすぎない」というのが、同氏の説明でした。
誰かがXRumerを商用化した理由を尋ねたとしても、返ってくる答えは決まっています。「大勢の視覚障害者を助けるためだ」ということです。
※本ページの内容はMcAfee Blogの抄訳です。
原文:Cracking CAPTCHA: Another Russian Business