BookshareのDAISY化のためボランティアによるの紙の書籍のテキストデータ化・テキスト校正作業の流れ

 Bookshareは、米国の著作権法の権利制限規定に基づき、ボランティアによる紙の書籍のテキスト化(DAISY化)を行っています。ユーザーがテキストDAISY製作のリクエストをしてから、ボランティアが製作にとりかかり、提供に至るまでのフローの一部がボランティアマニュアルとしてBookshareのサイトに公開されています。

流れは以下の通りです。2のスキャニング・OCRと、3のテキスト校正は、クオリティコントロールのために、同一のボランティアが行わないようになっているそうです。ユーザーからリクエストを受けて提供するまでにかかる期間は、資料にもよりますが、数週間から数ヶ月とのこと。

  1. ユーザーからのリクエスト
  2. スキャニング・ OCR
  3. テキスト校正
  4. Bookshare管理者による承認・(DAISY化)・提供
  5. ユーザーからの指摘による修正
  6. 画像の説明文の追加

この作業に携わる者

 上では、「ボランティアによって」という表現を用いましたが、正確には製作には以下の3者がこの作業に関わっています。

  • 米国内のボランティア
  • Bookshareのスタッフ
  • 障害者(多くは聴覚障害者)を雇用している海外(インド、ラオス、ケニアなど)のパートナーへのアウトソーシング(雇用によって障害者のITスキルを向上させ、さらなる雇用につなげることを目的にしている)

 ボランティアを米国内に限定しているのは、おそらく著作権法上の制約なのだと思いますが、そうであるなら、海外にアウトソーシングしているのは、どういう法理なのかというところがよくわかりませんでした。

作業の流れ

1 ユーザーからのリクエスト

 Bookshareの登録利用者が本のテキスト化(DAISY化)をフォームからリクエストします。

 製作のリクエストを受け、ボランティアが製作に取りかかるのを待っているタイトルが以下で公開されています。

参考

2 スキャニング・OCR

2.1 スキャニングするタイトル選択

 ボランティアはWish Listからスキャニングするタイトルを選択します。選定時の注意事項は以下。

  • すでにBookshareにないコンテンツであること
  • タイトルページがあること
  • 著作権情報が掲載されているか、パブリックドメイン/CCライセンス
  • 35ページ以上の書籍の場合は、ページ数が記載されていること
  • New York Times Best Sellersと主な雑誌は定期的に製作されているので、対象から外す
  • 以下の製作は受け付けないこと
    • 電子書籍として出ているもの(過去に印刷版として刊行またはスキャニングされたことがあったとしても)
    • 共通テスト(standardized tests)
    • 教科書の教師版
    • 著作権保護期間中の脚本
参考

2.2 スキャニング・OCR

 ボランティアが自身で保有しているスキャナーとOCRソフトウェアで紙の資料をスキャニングし、OCR処理を行います。

  • スキャナの設定
    • ページの区切り(ページブレイク)は残す。
    • 原資料記載のページ番号を入れる(ヘッダーやフッター機能は用いない)
    • 画像を取り除く(自動的に行えなければ、ボランティアが手動で行う)、代わりに取り除いた画像の説明を追加してもよい。
    • リッチテキスト形式((RTF)で保存する。
  • タイトルページ、著作権情報が記載されているページ、空白のページを含めて全てのページをスキャンする。

 原本では、ボールド、イタリック体等になっていないのに、OCRをかけて製作したRTFファイルはそうなっていないか、1語が2語に分割されていないか等の確認を行い、問題なければ、次のステップのアップロードになります。
 

参考

2.3 アップロード

 BookshareのボランティアアカウントでVolunteer Homeにログインして2.2で作成したRTF形式のデータをアップロードします。ファイルは複数のファイルに分割せずに1ファイルでアップロードします

参考

2.4 メタデータの記入

 アップロード終了後にメタデータを記入する画面が表示されるので、その場面でメタデータを記入します。記入するメタデータは以下の通り(ISBNを記入することで自動的に記入される項目あり)。

  • 品質分析(アップロード時にエラーの数に基づいた判定結果によって自動記入されるフラグ)
  • ISBN
  • タイトル(タイトルページのタイトルに一致するタイトル)
  • 著者
  • 著作権者(原本の著作権情報ページの情報と一定している必要がある)
  • 著作権が発生した日(原本の著作権情報ページの情報と一定している必要がある)
  • 出版者(原本の著作権情報ページの情報と一定している必要がある)
  • 短い概要または長い概要
  • 著作権上の理由による利用にあたっての地理的な制約
  • カテゴリ
  • アダルトコンテンツ情報(18歳未満のユーザー及び公共図書館では利用させないために、セクシャルコンテンツにはそれを示すフラグをたてる)
参考

 アップロードが完了すると、Checkout Listと呼ばれるリストにタイトルが掲載され、テキスト校正を行うボランティアが作業できるようになります。

3 テキスト校正(proofreading)

3.1 タイトルの選定/テキスト校正の期限

 テキスト校正は、クオィリティコントロールのためスキャニングを行ったボランティアと別のボランティアが担当します。1タイトルにつき、1人のボランティアが責任もって担当する仕組みになっています。1人のボランティアが多くのタイトルを抱え、提供期間がおそくなることがないように、一度に引き受けることができる条件は5タイトルまで、校正のしめきりはタイトル選定後2週間以内(1度は延長可)となっています。
テキスト校正を行うボランティアは、Checkout Listからテキスト校正を行うタイトルを選定し、Bookshareの管理者の承認をうけて、2で作成されたRTFファイルをダウンロードします。

参考

3.2 テキスト校正

 ダウロードしたRTFファイルをWORDなどの編集ソフトで校正・編集します。
主なチェック項目。

 
 上で触れたように、フォントサイズが以下のようにきちんとサイズまで規定されています。 RTFファイルからDAISYに変換する際の構造化(見出しレベルのレベル1、レベル2、レベル3の設定や目次の作成など)に使用されるのでしょうか。
タイトル: 20 point and bold
部: 18 point and bold
章: 16 point and bold
節、小節: 14 point and bold
本文: 12 point (not bold) 

参考

3.3 アップロード

校正が完了したら、Volunteer Homeにログインした後にアップロードします。このタイミングで、2.4で記入されたメタデータに誤りがないかを再度確認します。

参考

4 Bookshare管理者による承認・(DAISY化)・提供

 3までの行程を経たコンテンツをBookshareの管理者が承認して、ユーザーに提供します。3までで製作されたテキストデータ(RTFファイル)のDAISY化については、ドキュメントが見つからないので、どのようにやっているかは不明ですが、1点1点手動でやっているようには見えないので、おそらく自動的にDAISYに変換するプログラムが組まれていると思われます。

5 ユーザーからの指摘

 提供に至ったコンテンツの中にはできのよくないものも存在します。そういうコンテンツに対してユーザーからの指摘を受けつけ、問題があるものは、再スキャンなどの処理に回されます。品質に問題があり、再スキャンというの作成の対象に挙がっているタイトルが以下で公開されています。

画像の説明文の追加

図のような画像データで表現する必要があるものは、スキャニングの段階で取り除かれてしまいます。図の説明はスキャニング・OCR時に可能なら入れてというスタンスで、ボランティアに委ねています。ボランティアが追加する場合は、以下のマニュアルに従って記述します。

 上のような運用であるため、Bookshareには図の説明がないコンテンツが大量に存在することになるのですが、これに対しては、Bookshare運営元の Benetechが立ち上げたDIAGRAM CenterPOETという、 DAISYやEPUBの画像にテキストの説明を挿入するためのオンラインツールを開発し、Booksahreがこれを用いた Image Description Projectを2012年から進めています。

参考

テキストデータの品質

テキストデータの品質は、メタデータの”Book Quality”という項目で確認することができます。以下の4つのランクで評価されています。Publisher Qualityが出版社から提供を受けたテキストデータで、Excellent、Good、Fairがボランティアが製作したコンテンツです。

  • Publisher Quality
  • Excellent(1ページに平均1つ以下のエラー)
  • Good(1ページに平均2つ以下のエラー)
  • Fair

その他

 以下は、いろいろ調べてみたのですが、よくわかりませんでした。情報求ム。

  • スキャニングする原本はボランティアが用意するのか、Bookshareが用意するのか。前者であれば、学術書などであれば、ボランティア側に相当な費用負担が発生するはずであるが、どう解決しているのか。
  • マニュアルを見る限り、スキャニング→OCRで作成したテキストデータ(RTF形式)のみをアップロードし、スキャニング画像はアップロードされていないようであるが、どうやってテキスト校正を行うのか。

関連エントリ

マラケシュ条約の各国の2015年の対応

 以下の記事で米国、カナダ、欧州の批准に対する状況が紹介されています。ちなみにBenetechは米国のbookshareを運営している会社です。

 さっくりまとめると、2015年中の批准の可能性については、カナダ「ほぼ確実」、米国「あり得る」、欧州各国「なさそう」とのことらしいです。
 カナダについては、批准の法整備のために”Support for Canadians with Print Disabilities Act(プリントディスアビリティのあるカナダ人支援法)”が議会で審議されているところのようです。

アクセシブルな電子書籍とは何かを示すガイドラインを図書館側が作ってはどうか

 障害者差別解消法の施行まであと1年弱となりました。公共図書館向けのいろいろなサービスが障害差差別解消法の対応できる的なことを謳うようになると思いますが、電子書籍サービスもおそらくはその1つでしょう。
 個々の電子書籍ベンダの状況はよくわかりませんが、アクセシビリティ対応についてはベンダごとにそれぞれ重きを置くところがさまざまではないかと思います。「アクセシブルな電子書籍」と一言で言っても、図書館が考える「アクセシブルな電子書籍」とベンダ側(と出版社)が考えるそれが同じとは限らないため、図書館が考える「アクセシブルな電子書籍」が何かを明示する必要があるのではないかと考えています。利用者に対して直接サービスを提供する図書館側が考える「アクセシブルな電子書籍」の要件を整理して提示し、認識に齟齬が生じることを防ぐことが重要です。
 例えば、以下について要件の優先順位を示したガイドラインを提示することで、ベンダやコンテンツプロバイダが自分が提供するサービスやコンテンツが、客観的に自己評価でき、かつ、今後どのように改善していけばよいのか、その道筋を示すというのは一つの方法です。

  • (出版社と電子書籍プラットフォームに対して)図書館が考える「アクセシブルな電子書籍」とは何か。
  • (ビューワー開発者と電子書籍プラットフォームに対して)図書館が考える電子書籍の「アクセシブルな閲覧環境」とは何か。
  • (電子書籍プラットフォームに対して)図書館が考える電子書籍の「アクセシブルな提供方法」とは何か。

 この方法の大きな利点は、ベンダ側に要件を提示できるだけではなく、図書館側が電子書籍サービスの導入やコンテンツの購入に際して、これらを「障害差差別解消法の対応」という文言に左右されずに客観的に評価できることです。
 障害の状況は人によってそれぞれ異なりますので、全ての方が満足するものを提供することは困難です。ベンダが出してきたものに対して、問題点を指摘することは無論重要ですが、図書館側が考える「アクセシブルな電子書籍」を明示せずに、ベンダが問題を指摘され続けるという状況は、ベンダにとっては、ゴールが見えないため、やる気を削ぐ可能性もあり、あまり望ましいことではありません。
 そこで、ガイドライン的なものを提示することで、だれもがサービスやコンテンツを客観的に評価でき、問題点を顕在化できるようにする。そして、現実的に実装できる道筋を示す。ベンダ側も全ての要件を一気に満たすことは難しくても、道筋が示されれば、優先順位の高い要件から「合理的配慮」の範囲内で少しずつ実装してくれるかもしれない。企業全体としてその気はなくても、内部の人がやる気を出して可能な範囲で少しずつ改善してくれるかもしれないし、あるいは、ガイドラインによる客観的な評価をもって、上を説得するようになるかもしれない。後半は希望的観測もありますが、ガイドラインのあり方は、ウェブアクセシビリティガイドラインで知られるW3CのWCAG2.0( = JIS X8341-3:2010)はロールモデルになるものだと思います。
 利用者に接してサービスを提供する図書館は、障害者のニーズをくみ上げて出版社やベンダーに「アクセシブルな電子書籍」とは何かを伝えることができるし、その役割を果たすことでアクセシブルな電子書籍の普及に貢献することができるはずです。
 要件を整理してガイドラインを作成するということは、関係者間で「アクセシブルな電子書籍」の認識を一致させる必要がまずはあり、相当大変なことだ思いますが、それは必要な調整ではないかととも思います。
 私が図書館側の人間なので、今回は「図書館」を中心に述べてきましたが、視覚障害者情報提供施設(いわゆる、点字図書館)に置き換えても同じことが言えるはずです。立場としては図書館と点字図書館は同じであるはずですので、連携して取り組めればよいかもしれません。米国のEPUB 3 Implementation Projectが出版社、リーディングシステム開発者、コンテンツ販売者、サービスプロバイダ、そして、アクセシビリティ関係のコミュニティが集まって要件を整理したように、日本でももっと広いくくりで領域をまたいでこういうものが作れると本当はもっとよいのでしょうか。

関連エントリ