プリントディスアビリティのある人を対象とした世界最大のアクセシブルなオンライン図書館 Bookshare

 Bookshareは、視覚障害その他の理由で通常の印刷物を読むことができないプリントディスアビリティのある人にアクセシブルなコンテンツを提供するオンライン図書館です。非営利の社会的企業Benetech社が2002年に立ち上げたもので、プリントディスアビリティのある人を対象としたオンライン図書館としては世界最大のものです。

誰が利用できるのか

 米国の著作権法の権利制限規定またはそれにならって権利者から得た許諾に基づいてコンテンツを製作・収集・提供しているため、利用できるのは、プリントディスアビリティとしてBookshareに会員登録した人に限定されます。具体的には、視覚障害、肢体不自由などの理由でページをめくれない等の身体障害、読書に困難のある学習障害のある障害者で、専門家によってそれを証明してもらう必要があります。

 会費は個人会員であれば、基本的に入会費25ドル年会費50ドルですが、ユーザーの身分によって無料になったり、ユーザーがいる国によってディスカウントされることもあります。

 プリントディスアビリティがあることの証明のところで、ハードルが高くなりますが、海外の人間でもプリントディスアビリティがあることが証明可能であれば、登録することが可能です。

参考

利用できるコンテンツ

 Bookshareは2015年7月24日現在で約35万点のアクセシブルなコンテンツを提供しています。

 ダウンロードして利用できるコンテンツの形式は以下のとおりで、ソースとなるテキストデータから自動的にユーザーが選択したいずれかの形式に変換されてダウンロードできるようになっているようです。

  • テキストDAISY(DAISY3)
  • 音声DAISY(DAISY3。合成音声によって読み上げた音声データを格納したDAISY)
  • 音声データ(MP3形式。合成音声によって読み上げた音声データ)
  • 点字データ(BRF形式)

 35万点のコンテンツのソースは以下の通りです。Bookshareといえば、米国の著作権法の権利制限規定に基づいてボランティアが紙の印刷物をスキャニング・OCR処理して作成したものが有名ですが、現在では、全体から見れば一部にすぎず、出版社から直接提供を受けるデータの方が数としては多くなっています。

ボランティアによる製作

ユーザーからの製作のリクエストを受けて、ボランティアが製作したテキストデータで、米国の著作権法の制限規定に基づいて製作しています。音楽共有サービスNapsterにヒントを得て、図書をスキャニングしたデータを合法的に共有できたらよいのではないかというところからフルックターマンは、Bookshareを着想したと言われているそうで、Bookshareが2002年に立ち上がった当初から現在に至るまで行われています。

 製作フローは1人のボランティアが紙の書籍をスキャニング・OCR処理を行い、別のボランティアがそれをテキスト校正するという製作フローになっており、リクエストを受けてから数週間から数ヶ月で完成するそうです。

参考

出版社から提供を受けたデータ

 出版社からもデータの提供を受けています。現在は、500以上の出版社からデータの提供を受けており、Bookshareが提供する35万点のうち、2/3は出版社からデータの提供を受けたコンテンツではないかと思います。

 出版社から提供を受けているフォーマットはEPUB 2とEPUB3で、PDFは現在、受け付けていません。メタデータは、ONIX2かExcelによって提供を受けているとのこと。

参考

著者から提供を受けたデータ

著者からのデータ提供も受け付けています。これまで数百の著者から直接データの提供を受けたそうです。受け付けるファイル形式はEPUB 2、EPUB 3、Word及びRTFで、紙版の書籍とPDF版による提供は受け付けていないとのこと。

参考

初等・中等教育の教科書

 Bookshareの存在を際だたせているもう1つのコンテンツがこの初等・中等教育の教科書データの提供です。

 米国では、個別障害者教育法(IDEA 2004)により、教科書の購入者である州や地方教育局の求めに応じて教科書出版社は教科書などの教材のデータをNIMAS(National Instructional Materials Accessibility Standard)というフォーマットで提出することが義務づけられています。Bookshareは、このNIMASファイルを元にテキストDAISYを作成して障害児に提供しています。米国教育省のOSEP(Office of Special Education Programs)から資金援助をうけて、無償で提供しています。

 また、Bookshareは紙の教科書を裁断して、スキャニングしてテキストDAISY化もしています。
 詳細は、参考に挙げた近藤武夫先生の論文に詳しいので、そちらをご参照ください。

参考

大学からアップロードされたデータ(University Partner Program)

 読書障害のある大学生支援を目的に、各大学が障害学生のためにスキャニングして製作した教科書などのテキストデータを収集しています。2015年7月24日現在で35校の大学がこのプログラムに参加しています。各大学は、Bookshareのボランティアマニュアルにしたがって教材をスキャニング・OCR処理をしてテキストデータを製作し、RTF形式でアップロードします。ただし、ボランティアが製作したものと異なり、大学がアップロードしたものの場合は、テキスト校正のフローが省略され、すぐに提供に回すことができます。

参考

NFB-NEWSLINEの雑誌・新聞

 National Federation of the Blind(NFB)の新聞・雑誌の音声提供サービスNFB-NEWSLINEと提携してNFB-NEWSLINEのコンテンツを利用できるようになっています。

参考

コンテンツの利用方法

 Bookshareはウェブサイトから直接閲覧することができるブラウザベースの閲覧システムBookshare Web Readerを提供しているほか、

Bookshareのウェブサイトで一覧されているように、デスクトップPC上のアプリケーションや、タブレット端末・スマートフォン端末用のアプリケーションやハードウェアデバイス(再生機器)で利用することが可能です。中にはBookshareのウェブサイトを訪問してコンテンツをダウンロードしなくても、ソフトウェア、デバイス上でBookshareのコンテンツを直接ダウンロードできるものもあります。

参考

Bookshareを運営するBenetchとは

 Benetechはテクノロジーの力で世界をより良くしていこうと、人権、リテラシー、環境をテーマに取り組んでいる非営利の社会的企業です。ジム・フルックターマン(Jim Fruchterman)氏が立ち上げたもので、前身となるArkenstone社のプロダクトラインを2000年に他の企業に売却し、社の名前をBenetechに、組織形態を非営利の社会的企業に改めて生まれた企業です。なお、Arkenstone社は、視覚障害者向けのOCRソフトウェアを開発していた企業で、それを用いた音声読書システム(スキャナとOCRソフトウェアで紙の資料をテキスト化し、合成音声で読み上げるシステム)が1990年代に60カ国で3万5千台販売されたそうです。

 Bookshareは、Benetechが進めるGlobal Literacy Programの1つで、同プログラムの下には、他にアクセシビリティに関する標準化やツールの研究・開発を行うDIAGRAM Centerや、大人の読み書き能力の向上を目的としたリテラシー教育プロジェクトRoute 66 Literacyがあります。

参考

BookshareのDAISY化のためボランティアによるの紙の書籍のテキストデータ化・テキスト校正作業の流れ

 Bookshareは、米国の著作権法の権利制限規定に基づき、ボランティアによる紙の書籍のテキスト化(DAISY化)を行っています。ユーザーがテキストDAISY製作のリクエストをしてから、ボランティアが製作にとりかかり、提供に至るまでのフローの一部がボランティアマニュアルとしてBookshareのサイトに公開されています。

流れは以下の通りです。2のスキャニング・OCRと、3のテキスト校正は、クオリティコントロールのために、同一のボランティアが行わないようになっているそうです。ユーザーからリクエストを受けて提供するまでにかかる期間は、資料にもよりますが、数週間から数ヶ月とのこと。

  1. ユーザーからのリクエスト
  2. スキャニング・ OCR
  3. テキスト校正
  4. Bookshare管理者による承認・(DAISY化)・提供
  5. ユーザーからの指摘による修正
  6. 画像の説明文の追加

この作業に携わる者

 上では、「ボランティアによって」という表現を用いましたが、正確には製作には以下の3者がこの作業に関わっています。

  • 米国内のボランティア
  • Bookshareのスタッフ
  • 障害者(多くは聴覚障害者)を雇用している海外(インド、ラオス、ケニアなど)のパートナーへのアウトソーシング(雇用によって障害者のITスキルを向上させ、さらなる雇用につなげることを目的にしている)

 ボランティアを米国内に限定しているのは、おそらく著作権法上の制約なのだと思いますが、そうであるなら、海外にアウトソーシングしているのは、どういう法理なのかというところがよくわかりませんでした。

流れ

1 ユーザーからのリクエスト

 Bookshareの登録利用者が本のテキスト化(DAISY化)をフォームからリクエストします。

 製作のリクエストを受け、ボランティアが製作に取りかかるのを待っているタイトルが以下で公開されています。

参考

2 スキャニング・OCR

2.1 スキャニングするタイトル選択

 ボランティアはWish Listからスキャニングするタイトルを選択します。選定時の注意事項は以下。

  • すでにBookshareにないコンテンツであること
  • タイトルページがあること
  • 著作権情報が掲載されているか、パブリックドメイン/CCライセンス
  • 35ページ以上の書籍の場合は、ページ数が記載されていること
  • New York Times Best Sellersと主な雑誌は定期的に製作されているので、対象から外す
  • 以下の製作は受け付けないこと
    • 電子書籍として出ているもの(過去に印刷版として刊行またはスキャニングされたことがあったとしても)
    • 共通テスト(standardized tests)
    • 教科書の教師版
    • 著作権保護期間中の脚本
参考
2.2 スキャニング・OCR

 ボランティアが自身で保有しているスキャナーとOCRソフトウェアで紙の資料をスキャニングし、OCR処理を行います。

  • スキャナの設定
    • ページの区切り(ページブレイク)は残す。
    • 原資料記載のページ番号を入れる(ヘッダーやフッター機能は用いない)
    • 画像を取り除く(自動的に行えなければ、ボランティアが手動で行う)、代わりに取り除いた画像の説明を追加してもよい。
    • リッチテキスト形式((RTF)で保存する。
  • タイトルページ、著作権情報が記載されているページ、空白のページを含めて全てのページをスキャンする。

 原本では、ボールド、イタリック体等になっていないのに、OCRをかけて製作したRTFファイルはそうなっていないか、1語が2語に分割されていないか等の確認を行い、問題なければ、次のステップのアップロードになります。
 

参考
2.3 アップロード

 BookshareのボランティアアカウントでVolunteer Homeにログインして2.2で作成したRTF形式のデータをアップロードします。ファイルは複数のファイルに分割せずに1ファイルでアップロードします

参考
2.4 メタデータの記入

 アップロード終了後にメタデータを記入する画面が表示されるので、その場面でメタデータを記入します。記入するメタデータは以下の通り(ISBNを記入することで自動的に記入される項目あり)。

  • 品質分析(アップロード時にエラーの数に基づいた判定結果によって自動記入されるフラグ)
  • ISBN
  • タイトル(タイトルページのタイトルに一致するタイトル)
  • 著者
  • 著作権者(原本の著作権情報ページの情報と一定している必要がある)
  • 著作権が発生した日(原本の著作権情報ページの情報と一定している必要がある)
  • 出版者(原本の著作権情報ページの情報と一定している必要がある)
  • 短い概要または長い概要
  • 著作権上の理由による利用にあたっての地理的な制約
  • カテゴリ
  • アダルトコンテンツ情報(18歳未満のユーザー及び公共図書館では利用させないために、セクシャルコンテンツにはそれを示すフラグをたてる)
参考

 アップロードが完了すると、Checkout Listと呼ばれるリストにタイトルが掲載され、テキスト校正を行うボランティアが作業できるようになります。

3 テキスト校正(proofreading)

3.1 タイトルの選定/テキスト校正の期限

 テキスト校正は、クオィリティコントロールのためスキャニングを行ったボランティアと別のボランティアが担当します。1タイトルにつき、1人のボランティアが責任もって担当する仕組みになっています。1人のボランティアが多くのタイトルを抱え、提供期間がおそくなることがないように、一度に引き受けることができる条件は5タイトルまで、校正のしめきりはタイトル選定後2週間以内(1度は延長可)となっています。
テキスト校正を行うボランティアは、Checkout Listからテキスト校正を行うタイトルを選定し、Bookshareの管理者の承認をうけて、2で作成されたRTFファイルをダウンロードします。

参考
3.2 テキスト校正

 ダウロードしたRTFファイルをWORDなどの編集ソフトで校正・編集します。
主なチェック項目。

 
 上で触れたように、フォントサイズが以下のようにきちんとサイズまで規定されています。 RTFファイルからDAISYに変換する際の構造化(見出しレベルのレベル1、レベル2、レベル3の設定や目次の作成など)に使用されるのでしょうか。

タイトル: 20 point and bold
部: 18 point and bold
章: 16 point and bold
節、小節: 14 point and bold
本文: 12 point (not bold) 

参考
3.3 アップロード

校正が完了したら、Volunteer Homeにログインした後にアップロードします。このタイミングで、2.4で記入されたメタデータに誤りがないかを再度確認します。

参考

4 Bookshare管理者による承認・(DAISY化)・提供

 3までの行程を経たコンテンツをBookshareの管理者が承認して、ユーザーに提供します。3までで製作されたテキストデータ(RTFファイル)のDAISY化については、ドキュメントが見つからないので、どのようにやっているかは不明ですが、1点1点手動でやっているようには見えないので、おそらく自動的にDAISYに変換するプログラムが組まれていると思われます。

5 ユーザーからの指摘

 提供に至ったコンテンツの中にはできのよくないものも存在します。そういうコンテンツに対してユーザーからの指摘を受けつけ、問題があるものは、再スキャンなどの処理に回されます。品質に問題があり、再スキャンというの作成の対象に挙がっているタイトルが以下で公開されています。

画像の説明文の追加

図のような画像データで表現する必要があるものは、スキャニングの段階で取り除かれてしまいます。図の説明はスキャニング・OCR時に可能なら入れてというスタンスで、ボランティアに委ねています。ボランティアが追加する場合は、以下のマニュアルに従って記述します。

 上のような運用であるため、Bookshareには図の説明がないコンテンツが大量に存在することになるのですが、これに対しては、Bookshare運営元の Benetechが立ち上げたDIAGRAM CenterPOETという、 DAISYやEPUBの画像にテキストの説明を挿入するためのオンラインツールを開発し、Booksahreがこれを用いた Image Description Projectを2012年から進めています。

参考

テキストデータの品質

テキストデータの品質は、メタデータの”Book Quality”という項目で確認することができます。以下の4つのランクで評価されています。Publisher Qualityが出版社から提供を受けたテキストデータで、Excellent、Good、Fairがボランティアが製作したコンテンツです。

  • Publisher Quality
  • Excellent(1ページに平均1つ以下のエラー)
  • Good(1ページに平均2つ以下のエラー)
  • Fair

その他

 以下は、いろいろ調べてみたのですが、よくわかりませんでした。情報求ム。

  • スキャニングする原本はボランティアが用意するのか、Bookshareが用意するのか。前者であれば、学術書などであれば、ボランティア側に相当な費用負担が発生するはずであるが、どう解決しているのか。
  • マニュアルを見る限り、スキャニング→OCRで作成したテキストデータ(RTF形式)のみをアップロードし、スキャニング画像はアップロードされていないようであるが、どうやってテキスト校正を行うのか。

関連エントリ