Internet ArchiveのOpen Libraryが360万点強のDAISY図書を提供しているようだ

以前、Internet Archiveブログで、プリントディサビリティの方が無料で100万点のDAISY図書を利用できるようになったという記事が掲載されました。2010年11月の話です。

タイトルごとに以下のようにEPUBやmobi形式ともにDAISY3形式のテキストDAISYがダウンロードできるようになっています。この選択肢の多さが素晴らしいです。
コンテンツのダウンロード部分のスクリーンショット。PDF、テキストデータ、EPUB、DAISY、mobi形式、Djvu形式でダウンロードできるほか、Kindleに送信する機能などが用意されている 2014-07-03 1.34.43
 テキストデータがあって、EPUBが作れるなら、EPUBに近いDAISY3形式のテキストDAISYも同時に提供することはそれほど難しいことではないと思いますが、今日(2014年7月3日)に確認したら、360万点を超えている。3年8ヶ月で約260万点増えたことになるのか・・。すごい・・。
Open LibraryのAccessible bookのスクリーンショット。2014年7月3日現在で3,663,755 works / 3,649,730 ebooksのコンテンツが提供できることが表示されている
 Accessible book (Open Library) 2014年7月3日現在

1日1000冊のペースで書籍をスキャニングして、それをテキストデータ化しているようです。英語の書籍とはいえ、古い書籍も結構あるのですが、このペースで校正はどうやっているのだろう。

 なお、上の360万点のうち、142万点は現代書籍であるため、暗号化されている”Protected DAISY”です。米国議会図書館の視覚障害者及び身体障害者のための全国図書館サービス(Library of Congress National Library Service for the Blind and Physically Handicapped:NLS)で利用者として登録された人でないと利用できません。米国議会図書館の視覚障害者及び身体障害者のための全国図書館サービス(Library of Congress National Library Service for the Blind and Physically Handicapped:NLS)によって提供されたコンテンツだそうです。
Open LibraryのProtected Accessible bookのスクリーンショット。2014年7月3日現在で1,446,009 works / 1,421,849 ebooksのProtected Accessible bookのコンテンツが提供できることが表示されている
 Protected DAISY (Open Library) 2014年7月3日現在

例えば、”Protected DAISY”である1955年刊の”Ovid”をダウンロードしようとすると以下の画面に遷移します。この画面でNLS提供のコンテンツであること、NLSのアカウントを保有する者でないと閲覧することをできないことを伝えています。
NLS提供のDAISYをダウンロードする前に表示される画面で、NLSのアカウントを保有する者でないと閲覧することができないことを伝えている
 例: DAISYをダウンロードする際に表示される画面

 最後になりますが、上のように紹介してしまうと、「アメリカすげー!それに比べて日本は・・・」という論調になりがちですが、

  • 英語はOCRの精度が日本語のそれを比べて高いこと(だから、書籍コンテンツをテキストデータ化しやすい)
  • 英語は日本語のように読みや分かちの問題がないので、合成音声による読み上げでも誤読もほとんどなくきれいに読み上げてくれ、テキストデータをそのままDAISYにしたテキストDAISYで利用に耐えうる

という点で、日本と事情が異なりますので、単純な比較は難しいところです。また、EPUB2とDAISY3は兄弟みたいなフォーマットですから、EPUBが提供できている環境からワンオプション(テキストDAISY)を追加することはさほど難しいことではないはずです。
とはいえ、この数はやはり凄いですね
※2014/7/8 修正
”Protected DAISY”の142万点を米国議会図書館の視覚障害者及び身体障害者のための全国図書館サービス(Library of Congress
National Library Service for the Blind and Physically Handicapped:NLS)が提供したものであると紹介してしまいましたが、”Protected DAISY”はNLSが提供したものではなく、IA自身が用意し提供しているコンテンツでしたので、修正しました。この”Protected DAISY”は現在書籍をスキャニングしたものだそうで、著作権法上、利用できる対象を制限しなければならず、そのためにNLSのプログラムにのっかっているようです。

関連エントリ