Internet ArchiveのOpen Libraryが360万点強のDAISY図書を提供しているようだ

以前、Internet Archiveブログで、プリントディサビリティの方が無料で100万点のDAISY図書を利用できるようになったという記事が掲載されました。2010年11月の話です。

タイトルごとに以下のようにEPUBやmobi形式ともにDAISY3形式のテキストDAISYがダウンロードできるようになっています。この選択肢の多さが素晴らしいです。
コンテンツのダウンロード部分のスクリーンショット。PDF、テキストデータ、EPUB、DAISY、mobi形式、Djvu形式でダウンロードできるほか、Kindleに送信する機能などが用意されている 2014-07-03 1.34.43
 テキストデータがあって、EPUBが作れるなら、EPUBに近いDAISY3形式のテキストDAISYも同時に提供することはそれほど難しいことではないと思いますが、今日(2014年7月3日)に確認したら、360万点を超えている。3年8ヶ月で約260万点増えたことになるのか・・。すごい・・。
Open LibraryのAccessible bookのスクリーンショット。2014年7月3日現在で3,663,755 works / 3,649,730 ebooksのコンテンツが提供できることが表示されている
 Accessible book (Open Library) 2014年7月3日現在

1日1000冊のペースで書籍をスキャニングして、それをテキストデータ化しているようです。英語の書籍とはいえ、古い書籍も結構あるのですが、このペースで校正はどうやっているのだろう。

 なお、上の360万点のうち、142万点は現代書籍であるため、暗号化されている”Protected DAISY”です。米国議会図書館の視覚障害者及び身体障害者のための全国図書館サービス(Library of Congress National Library Service for the Blind and Physically Handicapped:NLS)で利用者として登録された人でないと利用できません。米国議会図書館の視覚障害者及び身体障害者のための全国図書館サービス(Library of Congress National Library Service for the Blind and Physically Handicapped:NLS)によって提供されたコンテンツだそうです。
Open LibraryのProtected Accessible bookのスクリーンショット。2014年7月3日現在で1,446,009 works / 1,421,849 ebooksのProtected Accessible bookのコンテンツが提供できることが表示されている
 Protected DAISY (Open Library) 2014年7月3日現在

例えば、”Protected DAISY”である1955年刊の”Ovid”をダウンロードしようとすると以下の画面に遷移します。この画面でNLS提供のコンテンツであること、NLSのアカウントを保有する者でないと閲覧することをできないことを伝えています。
NLS提供のDAISYをダウンロードする前に表示される画面で、NLSのアカウントを保有する者でないと閲覧することができないことを伝えている
 例: DAISYをダウンロードする際に表示される画面

 最後になりますが、上のように紹介してしまうと、「アメリカすげー!それに比べて日本は・・・」という論調になりがちですが、

  • 英語はOCRの精度が日本語のそれを比べて高いこと(だから、書籍コンテンツをテキストデータ化しやすい)
  • 英語は日本語のように読みや分かちの問題がないので、合成音声による読み上げでも誤読もほとんどなくきれいに読み上げてくれ、テキストデータをそのままDAISYにしたテキストDAISYで利用に耐えうる

という点で、日本と事情が異なりますので、単純な比較は難しいところです。また、EPUB2とDAISY3は兄弟みたいなフォーマットですから、EPUBが提供できている環境からワンオプション(テキストDAISY)を追加することはさほど難しいことではないはずです。
とはいえ、この数はやはり凄いですね
※2014/7/8 修正
”Protected DAISY”の142万点を米国議会図書館の視覚障害者及び身体障害者のための全国図書館サービス(Library of Congress
National Library Service for the Blind and Physically Handicapped:NLS)が提供したものであると紹介してしまいましたが、”Protected DAISY”はNLSが提供したものではなく、IA自身が用意し提供しているコンテンツでしたので、修正しました。この”Protected DAISY”は現在書籍をスキャニングしたものだそうで、著作権法上、利用できる対象を制限しなければならず、そのためにNLSのプログラムにのっかっているようです。

関連エントリ

Bookshareで個人ユーザーが最も早く簡単にアクセシブルな本を読む方法

DAISY図書などのアクセシブルコンテンツを集めた米国の電子図書館Bookshareを個人ユーザーが使う場合の、最も簡単で早い方法をBookshareブログが紹介しています(サポートチームによくされる質問なのでまとめたとか)。

 動画も公開されています。

 上の動画で紹介されるBookshareのWeb ReaderのUIがほとんどReadiumと同じなので、おや?と思ったのですが、調べてみたらやはりReadiumをベースとしたものでした。

 Bookshareでは、ReadiumをベースにDAISYも読めるように開発をしたのでしょうか。DAISYに対応しているかどうかも気になりますが、現行のReadiumは操作性から見てもまだDAISYユーザーが満足する機能がないように思えますので、Bookshare版では、そこもどのように拡張開発したのかが気になるところです。
#Benetech社のgithubリポジトリには、DAISY Pipeline 2のスクリプトも置かれていますので、もしかしたらビューワーに移す段階で、DAISYからEPUB3に変換しているのかもしれません。
 ちなみにBookshareで個人ユーザーが最も早く簡単にアクセシブルな本を読む方法は以下です。

  1. Google ChromeでBookshareにログインします。
    Bookshare_login
  2.  

  3. 読みたい本を検索します。
    bookshare_Search
  4.  

  5. 検索結果一覧の各書籍に表示される“Read Now”をクリックします。
    readnow
  6.  

  7. Chrome拡張プラグインのインストールが求められるので、インストールします(プラグインのインストールは最初だけです)。
  8.  

  9. 本が開きますので
    openbook
    openbook2
    TTSボタン開始ボタンを押して、読み上げをスタートさせます。
    tts

なお、Bookshareの個人会員登録の対象はそのサービスの趣旨から読書に障害を持つ方になっています。