平成25年度インターネットによるバリアフリー化に関する意識調査報告書(内閣府)

 内閣府が2014年2月にバリアフリー化に関する意識調査を行いました。その調査報告「平成25年度インターネットによるバリアフリー化に関する意識調査報告書」が2014年3月に公開されています。

上の報告書でなされている質問項目のうち、このブログでよく取り上げるトピックに関係ありそうなものは以下でしょうか。

  • 「Q11 5 次に、以下のそれぞれの建築物ごとに、5年ほど前と比べて、どの程度バリアフリー化が進んだと思いますか。教えてください。/図書館では(SA)」
  • 「Q14 2 以下の情報・製品について、5年ほど前と比べて、どの程度バリアフリー化が進んだと思いますか。/ホームページ等のインターネット情報(わかりやすい構成、音声情報等)では(SA)」
  • 「Q14 3 以下の情報・製品について、5年ほど前と比べて、どの程度バリアフリー化が進んだと思いますか。/新聞・書籍・雑誌(わかりやすい文字や図の形・色・紙面構成等)では(SA)」
  • 「Q15 建築物について、あなたは今後、特にどの施設を重点的にバリアフリー化していくことが必要だと思いますか。以下の中からあてはまるものを3つまで教えてください。(MA)」(選択肢に図書館も含まれている)
  • 「Q18 情報・製品について、あなたは今後、特にどの事項を重点的にバリアフリー化していくことが必要だと思いますか。以下の中からあてはまるものを3つまで教えてください。(MA)」

British Libraryが現在、英国のウェブサイトを網羅的に収集中

British Libraryのウェブアーカイビングプロジェクト UK Web Archiveが6月12日より英国のウェブサイトを網羅的に収集しています。現在進行形で収集中。


 British Libraryは2013年から法に基づいて英国のウェブサイトの網羅的な収集(バルク収集)を開始しました。今回は2回目のバルク収集です。

 収集開始当日である2014年6月12日に掲載されたUK Web Archiveブログのエントリによると、前回の2013年は19億のURL、総容量で30.84TBのウェブリソース(ウェブサイトやイメージファイル、ドキュメントファイルなど)を集めたそうです。収集に70日かかったとか。今回は”.uk”ドメインと英国にホストがあると分かっている”.com”、 “.net”ドメイン “.info”ドメインなどを持つウェブサイトが収集の対象になるそうです。今年はどれくらい集まるか、その予想をハッシュタグ#ukwebcrawl2014で投稿するよう、Twitter市民に呼びかけたりもしています。

 現在の状況はUK Web ArchiveのTwitterのアカウント@UKWebArchiveで報告されています。2014年7月7日の報告では、3週間を経過したところで 8.4TBを収集したようです。


ハッシュタグは上にも出てきている#ukwebcrawl2014です。しばらくはこれで楽しめそうです。

Internet ArchiveのOpen Libraryが360万点強のDAISY図書を提供しているようだ

以前、Internet Archiveブログで、プリントディサビリティの方が無料で100万点のDAISY図書を利用できるようになったという記事が掲載されました。2010年11月の話です。

タイトルごとに以下のようにEPUBやmobi形式ともにDAISY3形式のテキストDAISYがダウンロードできるようになっています。この選択肢の多さが素晴らしいです。
コンテンツのダウンロード部分のスクリーンショット。PDF、テキストデータ、EPUB、DAISY、mobi形式、Djvu形式でダウンロードできるほか、Kindleに送信する機能などが用意されている 2014-07-03 1.34.43
 テキストデータがあって、EPUBが作れるなら、EPUBに近いDAISY3形式のテキストDAISYも同時に提供することはそれほど難しいことではないと思いますが、今日(2014年7月3日)に確認したら、360万点を超えている。3年8ヶ月で約260万点増えたことになるのか・・。すごい・・。
Open LibraryのAccessible bookのスクリーンショット。2014年7月3日現在で3,663,755 works / 3,649,730 ebooksのコンテンツが提供できることが表示されている
 Accessible book (Open Library) 2014年7月3日現在

1日1000冊のペースで書籍をスキャニングして、それをテキストデータ化しているようです。英語の書籍とはいえ、古い書籍も結構あるのですが、このペースで校正はどうやっているのだろう。

 なお、上の360万点のうち、142万点は現代書籍であるため、暗号化されている”Protected DAISY”です。米国議会図書館の視覚障害者及び身体障害者のための全国図書館サービス(Library of Congress National Library Service for the Blind and Physically Handicapped:NLS)で利用者として登録された人でないと利用できません。米国議会図書館の視覚障害者及び身体障害者のための全国図書館サービス(Library of Congress National Library Service for the Blind and Physically Handicapped:NLS)によって提供されたコンテンツだそうです。
Open LibraryのProtected Accessible bookのスクリーンショット。2014年7月3日現在で1,446,009 works / 1,421,849 ebooksのProtected Accessible bookのコンテンツが提供できることが表示されている
 Protected DAISY (Open Library) 2014年7月3日現在

例えば、”Protected DAISY”である1955年刊の”Ovid”をダウンロードしようとすると以下の画面に遷移します。この画面でNLS提供のコンテンツであること、NLSのアカウントを保有する者でないと閲覧することをできないことを伝えています。
NLS提供のDAISYをダウンロードする前に表示される画面で、NLSのアカウントを保有する者でないと閲覧することができないことを伝えている
 例: DAISYをダウンロードする際に表示される画面

 最後になりますが、上のように紹介してしまうと、「アメリカすげー!それに比べて日本は・・・」という論調になりがちですが、

  • 英語はOCRの精度が日本語のそれを比べて高いこと(だから、書籍コンテンツをテキストデータ化しやすい)
  • 英語は日本語のように読みや分かちの問題がないので、合成音声による読み上げでも誤読もほとんどなくきれいに読み上げてくれ、テキストデータをそのままDAISYにしたテキストDAISYで利用に耐えうる

という点で、日本と事情が異なりますので、単純な比較は難しいところです。また、EPUB2とDAISY3は兄弟みたいなフォーマットですから、EPUBが提供できている環境からワンオプション(テキストDAISY)を追加することはさほど難しいことではないはずです。
とはいえ、この数はやはり凄いですね
※2014/7/8 修正
”Protected DAISY”の142万点を米国議会図書館の視覚障害者及び身体障害者のための全国図書館サービス(Library of Congress
National Library Service for the Blind and Physically Handicapped:NLS)が提供したものであると紹介してしまいましたが、”Protected DAISY”はNLSが提供したものではなく、IA自身が用意し提供しているコンテンツでしたので、修正しました。この”Protected DAISY”は現在書籍をスキャニングしたものだそうで、著作権法上、利用できる対象を制限しなければならず、そのためにNLSのプログラムにのっかっているようです。

関連エントリ