BookshareのDAISY化のためボランティアによるの紙の書籍のテキストデータ化・テキスト校正作業の流れ

 Bookshareは、米国の著作権法の権利制限規定に基づき、ボランティアによる紙の書籍のテキスト化(DAISY化)を行っています。ユーザーがテキストDAISY製作のリクエストをしてから、ボランティアが製作にとりかかり、提供に至るまでのフローの一部がボランティアマニュアルとしてBookshareのサイトに公開されています。

流れは以下の通りです。2のスキャニング・OCRと、3のテキスト校正は、クオリティコントロールのために、同一のボランティアが行わないようになっているそうです。ユーザーからリクエストを受けて提供するまでにかかる期間は、資料にもよりますが、数週間から数ヶ月とのこと。

  1. ユーザーからのリクエスト
  2. スキャニング・ OCR
  3. テキスト校正
  4. Bookshare管理者による承認・(DAISY化)・提供
  5. ユーザーからの指摘による修正
  6. 画像の説明文の追加

この作業に携わる者

 上では、「ボランティアによって」という表現を用いましたが、正確には製作には以下の3者がこの作業に関わっています。

  • 米国内のボランティア
  • Bookshareのスタッフ
  • 障害者(多くは聴覚障害者)を雇用している海外(インド、ラオス、ケニアなど)のパートナーへのアウトソーシング(雇用によって障害者のITスキルを向上させ、さらなる雇用につなげることを目的にしている)

 ボランティアを米国内に限定しているのは、おそらく著作権法上の制約なのだと思いますが、そうであるなら、海外にアウトソーシングしているのは、どういう法理なのかというところがよくわかりませんでした。

作業の流れ

1 ユーザーからのリクエスト

 Bookshareの登録利用者が本のテキスト化(DAISY化)をフォームからリクエストします。

 製作のリクエストを受け、ボランティアが製作に取りかかるのを待っているタイトルが以下で公開されています。

参考

2 スキャニング・OCR

2.1 スキャニングするタイトル選択

 ボランティアはWish Listからスキャニングするタイトルを選択します。選定時の注意事項は以下。

  • すでにBookshareにないコンテンツであること
  • タイトルページがあること
  • 著作権情報が掲載されているか、パブリックドメイン/CCライセンス
  • 35ページ以上の書籍の場合は、ページ数が記載されていること
  • New York Times Best Sellersと主な雑誌は定期的に製作されているので、対象から外す
  • 以下の製作は受け付けないこと
    • 電子書籍として出ているもの(過去に印刷版として刊行またはスキャニングされたことがあったとしても)
    • 共通テスト(standardized tests)
    • 教科書の教師版
    • 著作権保護期間中の脚本
参考

2.2 スキャニング・OCR

 ボランティアが自身で保有しているスキャナーとOCRソフトウェアで紙の資料をスキャニングし、OCR処理を行います。

  • スキャナの設定
    • ページの区切り(ページブレイク)は残す。
    • 原資料記載のページ番号を入れる(ヘッダーやフッター機能は用いない)
    • 画像を取り除く(自動的に行えなければ、ボランティアが手動で行う)、代わりに取り除いた画像の説明を追加してもよい。
    • リッチテキスト形式((RTF)で保存する。
  • タイトルページ、著作権情報が記載されているページ、空白のページを含めて全てのページをスキャンする。

 原本では、ボールド、イタリック体等になっていないのに、OCRをかけて製作したRTFファイルはそうなっていないか、1語が2語に分割されていないか等の確認を行い、問題なければ、次のステップのアップロードになります。
 

参考

2.3 アップロード

 BookshareのボランティアアカウントでVolunteer Homeにログインして2.2で作成したRTF形式のデータをアップロードします。ファイルは複数のファイルに分割せずに1ファイルでアップロードします

参考

2.4 メタデータの記入

 アップロード終了後にメタデータを記入する画面が表示されるので、その場面でメタデータを記入します。記入するメタデータは以下の通り(ISBNを記入することで自動的に記入される項目あり)。

  • 品質分析(アップロード時にエラーの数に基づいた判定結果によって自動記入されるフラグ)
  • ISBN
  • タイトル(タイトルページのタイトルに一致するタイトル)
  • 著者
  • 著作権者(原本の著作権情報ページの情報と一定している必要がある)
  • 著作権が発生した日(原本の著作権情報ページの情報と一定している必要がある)
  • 出版者(原本の著作権情報ページの情報と一定している必要がある)
  • 短い概要または長い概要
  • 著作権上の理由による利用にあたっての地理的な制約
  • カテゴリ
  • アダルトコンテンツ情報(18歳未満のユーザー及び公共図書館では利用させないために、セクシャルコンテンツにはそれを示すフラグをたてる)
参考

 アップロードが完了すると、Checkout Listと呼ばれるリストにタイトルが掲載され、テキスト校正を行うボランティアが作業できるようになります。

3 テキスト校正(proofreading)

3.1 タイトルの選定/テキスト校正の期限

 テキスト校正は、クオィリティコントロールのためスキャニングを行ったボランティアと別のボランティアが担当します。1タイトルにつき、1人のボランティアが責任もって担当する仕組みになっています。1人のボランティアが多くのタイトルを抱え、提供期間がおそくなることがないように、一度に引き受けることができる条件は5タイトルまで、校正のしめきりはタイトル選定後2週間以内(1度は延長可)となっています。
テキスト校正を行うボランティアは、Checkout Listからテキスト校正を行うタイトルを選定し、Bookshareの管理者の承認をうけて、2で作成されたRTFファイルをダウンロードします。

参考

3.2 テキスト校正

 ダウロードしたRTFファイルをWORDなどの編集ソフトで校正・編集します。
主なチェック項目。

 
 上で触れたように、フォントサイズが以下のようにきちんとサイズまで規定されています。 RTFファイルからDAISYに変換する際の構造化(見出しレベルのレベル1、レベル2、レベル3の設定や目次の作成など)に使用されるのでしょうか。
タイトル: 20 point and bold
部: 18 point and bold
章: 16 point and bold
節、小節: 14 point and bold
本文: 12 point (not bold) 

参考

3.3 アップロード

校正が完了したら、Volunteer Homeにログインした後にアップロードします。このタイミングで、2.4で記入されたメタデータに誤りがないかを再度確認します。

参考

4 Bookshare管理者による承認・(DAISY化)・提供

 3までの行程を経たコンテンツをBookshareの管理者が承認して、ユーザーに提供します。3までで製作されたテキストデータ(RTFファイル)のDAISY化については、ドキュメントが見つからないので、どのようにやっているかは不明ですが、1点1点手動でやっているようには見えないので、おそらく自動的にDAISYに変換するプログラムが組まれていると思われます。

5 ユーザーからの指摘

 提供に至ったコンテンツの中にはできのよくないものも存在します。そういうコンテンツに対してユーザーからの指摘を受けつけ、問題があるものは、再スキャンなどの処理に回されます。品質に問題があり、再スキャンというの作成の対象に挙がっているタイトルが以下で公開されています。

画像の説明文の追加

図のような画像データで表現する必要があるものは、スキャニングの段階で取り除かれてしまいます。図の説明はスキャニング・OCR時に可能なら入れてというスタンスで、ボランティアに委ねています。ボランティアが追加する場合は、以下のマニュアルに従って記述します。

 上のような運用であるため、Bookshareには図の説明がないコンテンツが大量に存在することになるのですが、これに対しては、Bookshare運営元の Benetechが立ち上げたDIAGRAM CenterPOETという、 DAISYやEPUBの画像にテキストの説明を挿入するためのオンラインツールを開発し、Booksahreがこれを用いた Image Description Projectを2012年から進めています。

参考

テキストデータの品質

テキストデータの品質は、メタデータの”Book Quality”という項目で確認することができます。以下の4つのランクで評価されています。Publisher Qualityが出版社から提供を受けたテキストデータで、Excellent、Good、Fairがボランティアが製作したコンテンツです。

  • Publisher Quality
  • Excellent(1ページに平均1つ以下のエラー)
  • Good(1ページに平均2つ以下のエラー)
  • Fair

その他

 以下は、いろいろ調べてみたのですが、よくわかりませんでした。情報求ム。

  • スキャニングする原本はボランティアが用意するのか、Bookshareが用意するのか。前者であれば、学術書などであれば、ボランティア側に相当な費用負担が発生するはずであるが、どう解決しているのか。
  • マニュアルを見る限り、スキャニング→OCRで作成したテキストデータ(RTF形式)のみをアップロードし、スキャニング画像はアップロードされていないようであるが、どうやってテキスト校正を行うのか。

関連エントリ