EPUB 3からDAISYへの変換機能も必要じゃないの?というDAISY Pipelineのメーリングリスト上でのやりとり

 DAISYコンソーシアムが公開しているオープンソースのコンバーターDAISY Pipeline 2(開発中)は以下のようなDAISYの各バージョンからEPUB 3に変換する機能を持っています。

  • DAISY2.02 → EPUB3
  • DTBook(DAISY3のXMLドキュメント) → EPUB3
  • DAISY3 → EPUB3
  • DAISY -AI(DAISY4) XML → EPUB3
  • ※その他、HTMLファイル、点字ファイルへの変換も可能です。

 しかし、逆方向のEPUB 3からDAISYに変換する機能がありません(そして、現在公開されているロードマップにも開発の予定はありません)。
 EPUB3で作成されるコンテンツは日々増えているものの、現時点では、以下のエントリで紹介したようにDAISY再生ソフトウェア/機器のEPUB 3対応は不十分であり、EPUB 3ビューワーもDAISYユーザーが満足するほどアクセシブルではないという状況で、DAISYユーザーは増えていくEPUB 3コンテンツの恩恵を十分にうけることができません。

 
 EPUB 3をDAISY2.02やDAISY 3に変換し、DAISYユーザーが使い慣れている機器/アプリケーションで利用できるようにすることは、取り得る有効な選択肢の1つだと思われますが、同じように考える人がDAISY Pipeline開発陣の中にもいたようで、2013年1月にDAISY Pipelineの開発用メーリングリストでEPUB3_to_DAISYのコンバーターの開発の提案とそれに関する議論がされていました。

 個人的に関心があるところですので、少し詳しく紹介します。

メーリングリスト上のやりとり

 主に以下のお二人のやりとりです。お二人ともDAISY Pipleline 2開発に関わっている方のようです(Deltour氏は開発の中心メンバー?)。

 長いので先に結論を申し上げておきますと、一応EPUB 3からDAISYへの変換機能の開発をする方向ですすめていく・・・・ような感じではありますが、結論は出ていません。 

Jacobsen氏とDeltour氏のやりとり

Jacobsen氏の提案

 Jacobsen氏よりEPUB3から以下のようにDAISYに変換できる機能が必要じゃないかという提案です。

  • EPUB3 → DAISY2.02
  • EPUB3 → DTBook(もしくはDAISY3)
  • EPUB3 → ZedAI (いわゆるDAISY4)

https://groups.google.com/d/msg/daisy-pipeline-dev/yJIJqV7d1vQ/VYLT5qeHbMkJ
 

Deltour氏の回答

 Deltour氏はこのJacobsen氏の提案を妥当な提案であると認めつつ、

  • DTBookへ変換について: 文法的に寛容なHTML(そして、それを用いるEPUB 3)から文法的に厳格なDTBookへ変換は確実性を担保できないから難しい
  • しかし、EPUB3からDAISY 2.02への変換はDTBookと比べるとまだ容易かもしれない。

 ということで、EPUB 3からDTBook(及びDAISY3)への変換機能の開発には否定的なものの、DAISY 2.02への変換については比較的前向きな回答をしています。ただし、すでにDAISY Pipeline 2 プロジェクト計画書に掲載されたもっと優先順位が高いものに開発資源を割かねばならないため、DAISY 2.02への変換機能の開発にすぐにはリソースを割くことができない、との留保つきです。 
https://groups.google.com/d/msg/daisy-pipeline-dev/yJIJqV7d1vQ/QA6V20s6lwkJ
 

Jacobsen氏のNLBの状況説明

 Jacobsen氏、リソースをすぐに割けないことに同意しつつ、今回の提案の背景となったにNLBの状況説明(ちょっと蛇足になりますが、かなり興味深いので詳しく紹介します)。

  • NLBは紙の書籍を裁断し、OCRをかけた上でDTBookを制作している。DTBook制作は他の北欧諸国の機関と共同でインドのパートナー企業に外注している。
  • インドのパートナー企業との契約が2013年できれるので、そろそろ2014年以降の調達の計画とマークアップガイドラインの作成を始めなければならない。
  • 次の契約では、DTBookではなく、DAISY-AI(ZedAI/DAISY4)かEPUB 3を考えている。
  • 点字ファイルの作成について。現在は、DTBookからNorBrailleというツールを用いてPEF形式の点字ファイルに変換している(詳細: Braille production workflow at NLB)。
  • PEF形式への変換を、DTBookかDAISY-AI(ZedAI/DAISY4)をインプットファイルとするDAISY Pipelineを用いたフローに変更することを内部で検討している。
  • 音声DAISYの作成について。現在はDolphin Publisherを使用して、DAISY 2.02版のDAISYを作成している。Dolphin PublisherからHindenburg Audio Book Creatorに変更することを計画中。これならEPUB 3図書が作成できる。
  • もしEPUB 3形式のオーディオブックからDASIY2.02への変換が可能ならEPUB 3がオーディオブックのマスターフォーマットになるとJacobsen氏自身は考えている。
  • 教科書について。 XHTML 1.0形式の教科書データと、そして、おそらくDAISY3形式の教科書データを学生に配布している。しかし、代わりにEPUB 3形式の教科書データを配布すればよいので、EPUB 3からHTML形式やDAISY 3形式に変換することは私たちにはあまり必要ない。
  • 出版社からEPUB 3ファイルを受け入れるようになれば、そのEPUB3をインプットファイルとしてマルチメディアDAISYや点字ファイルが作成できるのだが・・・。

https://groups.google.com/d/msg/daisy-pipeline-dev/yJIJqV7d1vQ/bhz0flgqVvMJ

Deltour氏の回答
  • 技術的にJacobsen氏の要件は実現可能であるが、HTML(EPUB 3)からDTBookへの変換はやりにくいし、最優先の要件ではない。外注して作成するEPUB 3のHTMLファイルのマークアップをきっちり管理できるならやりやすくなるだろう。
  • EPUB3形式のオーディオブックからDAISY2.02形式のオーディオブックへの変換は未知の領域(しかし、Hindenburg Audio Book Creatorを使う方法は興味をそそられる)。
  • DAISY Pipelineの現行のプロジェクト計画書は2013年10月まで。その間はこの計画書に掲載されていることを優先してやらねばならないので、どうしてもこれらの要件を盛り込みたいのであれば、DAISYコンソーシアムの上を説得するか、理事会にうんと言わせて、この計画書を変更させなければならない。以下の3つの選択肢がある。
    1. 理事会の同意を得て、優先順位を上げてもらい現行のプロジェクト計画書期間内に行う
    2. 2013年10月以降のプロジェクト計画書に盛り込む
    3. 急ぐならDAISY Pipelineの開発メンバーを頼らずに自分たちでやる

https://groups.google.com/d/msg/daisy-pipeline-dev/yJIJqV7d1vQ/IVf-Glf0ifIJ

Jacobsen氏の回答

(意訳)
 自分でコーディングしてみたいなぁ・・・。とにかく他の機関で同じような要望がどれくらいあるかを聞いて、それから決めましょう。
https://groups.google.com/d/msg/daisy-pipeline-dev/yJIJqV7d1vQ/at-PhUU1QrUJ

その後 ※追記

 5月にDeltour氏がDAISY Pipelineの次の開発フェーズ(2014年1月から2015年12月)のOverview案を公開しました。

 この案では、DAISY Pipeline 1の機能を統合し、DAISY 2.02とDAISY 3を作成する機能を開発することが提案されていますが、EPUB 3から DAISYに変換する機能には触れられていません。
 当然、Jacobsen氏から「入ってねーじゃねか!」というツッコミがありました。さらに次のコペンハーゲンの会合で他の北欧諸国からもEPUB 3からDTBookへの変換機能の要望がでるかもよと(以上、意訳)。
 Deltour氏もDAISY2.02、DASIY3、DTBookからEPUB3、DAISY -AI(DAISY4)への移行が短期間で進むとは考えておらず、故にDAISY 2.02とDAISY 3を作成する機能の開発も次もフェースでと候補に挙げたとのことです。次のフェースの計画の詳細についてに話し合うときに、EPUB 3からDAISYへの変換機能も検討の候補に含めようと回答しています。
 ということで、2014年から始まる次のフェースでにEPUB 3からDAISYへの変換機能の開発が行われるかもしれません。

関連エントリ

EPUB 3とDAISY 4の関係
DAISYからEPUB 3に変換する
DAISY再生ソフト・機器のEPUB対応

アクセシブルなフォーマットにコンバートするスタンフォード大学のSCRIBE Project

 スタンフォード大学アクセシブル教育オフィス(Accessible Education. Office)がWordファイル、テキストファイル、htmlファイルなどから各種電子書籍フォーマット、DAISY、点字フォーマットに変換するコンバートサービスを公開しています。

 Inputファイル形式とOutputファイル形式は以下の通りです。
07
from Conversion Options
 EPUBからDAISYに変換することはさほど難しいとは思えないので、EPUBからDAISYへの変換は対応してほしいところです※。
※2013/08/15 追記
思ってたほど簡単ではないようでした。

  音声(MP3)への変換を選択するとテキストをTTSで読み上げたものをMP3でダウンロードできるようです。
eeeedfr06
 音声ファイル(MP3)への変換画面
 変換できる点字フォーマットも非常に多く、PEF(Portable Embosser Format)の他に様々な点字フォーマットの変換に対応しているようです(知らないものばかり・・・)。
eeeee18
 点字ファイルへの変換画面

Accessible EPUB Reading System – DAISYユーザーのためにEPUB 3リーディングシステムが求められること

 DAISYユーザーがDAISY的にEPUBを利用するためにはコンテンツであるEPUBファイルがアクセシブルである必要がありますが、そのアクセシビリティ機能を受け止めるビューワーも必要です。これまでのエントリで、DAISYリーダーのEPUB対応やDAISYから生成したEPUBを確認してきました。確認していく中でDAISYユーザーのためにEPUB 3リーディングシステムの要件がある程度まとまってきましたので、以下にまとめてみました。と言いましても、私のDAISY利用に対する理解が浅いため、知る人が読めば正直いろいろと過不足あろうかと思います(おそらくEPUBも・・・)。お気づきの点はご指摘いただけると幸いです。
 なお、インプットとして、W3CのUser Agent Accessibility Guidelines (UAAG) 2.0を参考にしました。まずはきちんと要件が整理されたW3CのUAAGを参照いただいた上で、以下をご覧いただければと思います。
 

1.テキストと色の設定

1.1. テキストの設定を変更できる

 フォント、フォントのサイズ、行間などを設定できる。

1.2. 色の設定を変更ができる

 テキストの色や背景色など色とコントラストを設定することできる。
 

2. 操作可能であること

2.1. 全ての機能をキーボードで操作できる

 リーディングシステムが持つ全ての機能をキーボードで操作できる。

2.2 文書の構造を活用した様々なレベルのフォーカスの移動ができる

 センテンス、パラグラフ、セクション、節、章などコンテンツ文書の構造を活用した様々なレベルのフォーカスの移動ができる。また、図、テーブル、註などユーザーにとって不要な箇所はフォーカスをスキップできる。音声合成によるテキスト読み上げ(TTS)、収録済み音声による読み上げ(Media Overlaysなど)の再生のフォーカスについても同様である。
 

3. ナビゲーション

3.1. 目次

 epub:type=”toc”で提供される目次だけではなく、Page Listランドマークなど様々なナビゲーションに対応している。

3.2. メタデータ

 メタデータはユーザーがコンテンツを開かなくても内容を識別する重要なナビゲーションである。タイトルだけではなく、著者、出版社、出版年などEPUBが持つメタデータをユーザーにコンテンツの選択するための情報としてユーザーは利用できる。また、拡張したメタデータの語彙にも対応している。

3.3. コンテンツ文書の構造を理解できる

 見出し、セクション、テープルなどコンテンツ文書の構造を理解し、ユーザーに伝えることができる。また、埋め込まれたセマンティクス(epub:type属性)も理解し、ユーザーに伝えることができる。

3.4. テキスト検索

 目次、本文などのテキストを全文検索できる。
 
 

4. 音声合成によるテキスト読み上げ(TTS:Text-To-Speech)

 音声合成によるテキスト読み上げ(TTS:Text-To-Speech)ができる。日本語ユーザーを対象とする場合は、日本語TTSエンジンと英語TTSエンジンを搭載している。

4.1. 非テキストコンテンツの代替テキストへのアクセス

非テキストコンテンツに提供される代替テキストにアクセスし読み上げることができる。

4.2. 読み情報へのアクセス

 PLSSSML、ruby要素にアクセスし、読み情報を取得できる。

4.3 読み上げ箇所を明示できる

 ハイライト表示などの方法で読み上げられている箇所を明示できる。

4.4. 言語情報の取得

 コンテンツ文書に埋め込まれた言語情報を取得して、適切な言語で読み上げることができる。

4.5. CSS 3 Speech

  CSS 3 Speechに対応している。

4.4. 読み上げの制御

  ボリューム、速度、間、ピッチ、ピッチレンジなど読み上げ音声を細かく制御することができる。
 

5. Media Overlays

 収録済みの音声の再生とテキストを同期させるMedia Overlaysに対応している。

5.1. 読み上げ箇所を明示できる

 ハイライト表示などの方法で読み上げられている箇所を明示できる。

5.2. 読み上げの制御

  ボリューム、速度、間、ピッチ、ピッチレンジなど収録済みの読み上げ音声の再生を細かく制御することができる。
 
 

参考

関連エントリ

EPUB 3とDAISY 4の関係
DAISYからEPUB 3に変換する
DAISY再生ソフト・機器のEPUB対応