2014年にTEDでジェレミー・ハワード氏がディープラーニングの可能性について話をしたものです。ディープラーニングについては、実は最近、気になり始めたばかりであまり詳しくはないのですが、これがそのすごさをわかりやすく伝えているなぁと思ったのでメモ。このトークから約2年が経ち、今はどうなっているのだろうか。
スピーチを文字に起こしたものも公開されています。
ジェレミー・ハワード: 自ら学習するコンピュータの素晴らしくも物恐ろしい可能性 | TED Talk Subtitles and Transcript | TED.com
コンピューターには「見る」だけでなく 「読む」こともでき 「聞く」ことによって理解できることも お見せしました そうすると「書く」ことだってできると言っても 驚かないかもしれません これは私が昨日 ディープ・ラーニング・ アルゴリズムで生成したテキストです こちらはスタンフォード大のアルゴリズムで 生成されたテキストです それぞれの画像を 説明する文が ディープ・ラーニング・アルゴリズムによって 生成されています アルゴリズムは「ギターを弾いている黒いシャツの男」を 前に見たことはありません 「男」を見たことはあり 「黒い」ものを見たことはあり 「ギター」を見たことはありますが このキャプションは画像に対して 新しく独自に作り出されたものです 書くことに関してはコンピューターは まだ人間に及びませんが 近づいています テストでは4回に1回は コンピューターの生成した文の方が好ましい — という結果になっています このシステムはできて まだ2週間しかたっていないので このまま行くと たぶん来年中には コンピューターアルゴリズムの成績が 人間を上回るのではと思います だからコンピューターは 書くこともできるのです
すごいですね。最近だと、facebookが代替テキストを自動生成する機能を実装することを発表しましたが、これの技術の応用でしょうか。
Facebook、AIを利用し画像の説明を生成–視覚障害者向けに自動代替テキスト機能を発表 – CNET Japan
この話は、Googleがコンピューターに猫を認識させることに成功したという話ですが、コンピュータが個々を判別するのではなく、種類というものを概念として理解できるようになったということらしい。これなどは、文字認識のことを考えると、OCRの認識率の向上に劇的な効果がありそうな気がする。
この1年前にディープ・ラーニングが 「見る」こともできると知りました ドイツ道路標識認識ベンチマーク という奇妙な競技会で このような道路標識をディープ・ラーニングで 識別できることが示されました 他のアルゴリズムよりも 上手く識別できた というだけでなく このスコアボードにある通り 2位の人間より 2倍高い精度で 識別できたんです 2011年には コンピューターが人よりも 良く見ることができる事例が 生まれたわけです それ以来いろんなことが 起きています 2012年にGoogleが発表したんですが ディープ・ラーニング・アルゴリズムが YouTubeビデオを見て 1万6千台のコンピュータで 1ヶ月 データ処理した結果 コンピューターが「人」や 「猫」といった概念を 自分で学んだということです これは人が学習する方法に 近いものです 人は見たものを 教えられて学ぶよりは むしろそれが何なのか 自分で学んでいくものです 2012年にはまた 先ほど名前の出たジェフリー・ヒントンが 有名なImageNet競技会で 優勝しましたが これは150万の画像を 何の写真か 判別するというものです 2014年の時点で 画像認識の誤り率は 6%までになっています これも人間より高い精度です
ディープラーニングがアクセシビリティの領域に限定しても、大きな影響を与えることになるのではなりそう。人間が読むように書籍からスキャニングした画像データをOCRに書けなくても、コンピューターが画像の説明を含めてそのまま読んでくれるようになったりするのではないか。