EPUB版点字図書(点字記号フォント埋め込み版)をつくってみた

@momdo_さんのブログの中で言及されている点字記号フォント同梱のEPUBがなかなか興味深かったので作ってみました。
EPUB版点字図書の作成には、Project Gutenbergで提供されている以下の図書のテキストデータを使用しました。

上のProject Gutenbergの図書のテキストデータを元に作成したのが以下のUnicode点字のEPUB版点字図書です。


図 iBooksで開くEPUB版点字図書
TrueTypeとWOFF、OpenTypeの点字記号フォントを同梱しています。端末に点字フォントがない場合でも、WOFFとTrueType、OpenTypeのWebフォントにEPUBビューワーが対応していれば表示できるはずです(埋め込んだフォントの関係で、空白スペース部分は以下のように□が表示されます。ご了承ください)。
※なお、点字プリンタ、点字ディスプレイを利用する場合、出力先の機器がユニコードに対応していればよいだけですので、ここで行っているような点字フォントの埋め込みは本質的には必要ありません。
38
点字コンテンツの作成中に晴眼者がコンテンツを確認する以外にフラットなスマートフォンやタブレット端末で点字記号を表示させることに、あまり意味はないかもしれません。しかし、点字プリンタや点字ディスプレイにつなげることができれば話は別です。少なくともiOS端末は点字ディスプレイに対応しているようです。ここで作成したEPUB版点字図書を点字ディスプレイで閲覧するためには、さらに点字ディスプレイがUnicodeに対応している必要がありそうですが、ここで作成したEPUB版点字図書が使用できるかどうか気になるところです。

なお、このEPUB版点字図書を作成するために変換に変換を重ねた上に(後述の「参考 作成のプロセス」を参照)、私自身、点字を読むことができないため、最終的にできあがったEPUB版点字図書には見出しがない、目次がない、パラグラフが適切でない、そもそも点訳がおかしいなどなどいろいろと問題があろうかと思います。今回はあくまで実験的にEPUB版点字図書を作ることに主眼をおいていますので、点訳の不備等についてはご了承ください。
以下、蛇足ですが、変換するまでのプロセスです。

参考 作成のプロセス

適度の量のUnicode点字のテキストファイルがなかなか見つからないため、以下の手順でProject Gutenbergで公開されている図書のテキストデータからEPUB版点字図書に変換しました。

  1. 元となる図書のテキストデータを用意
  2. テキストファイルをBRF形式の点字ファイル(Braille ASCII点字)に変換
  3. BRF形式の点字ファイルをPEF形式の点字ファイル(Unicode点字)に変換
  4. PEF形式の点字ファイルをEPUBに変換しやすいテキスト形式のUnicode点字ファイルに整形
  5. Unicode点字のテキストファイルをEPUB形式に変換
  6. EPUBに同梱する点字フォントを用意
  7. EPUB形式の中のメタデータを修正
  8. EPUBファイルを再作成
  9. 作成したEPUBファイルをバリデート
  10. デキタ! ヽ(`・ω・´)ノ

1.元となる図書のテキストデータを用意

Project Gutenbergで提供されている以下の図書のテキストデータを使用します。

私は点字を読むことができないため、この段階で意味のある単位である程度ファイルを分割・修正しておきます。
分割・修正後のファイル一式: pg35597_src.zip

2.テキストファイルをBRF形式の点字ファイル(Braille ASCII点字)に変換

テキストファイルをBRF形式のBraille ASCII点字に変換してくれるWebサービスで1で用意したテキストファイルを点字ファイルに変換します。

変換後ファイル一式: pg35597_brf.zip
※上はBraille ASCII点字であり、1文字1点字の逐字点訳ですので、通常のテキストエディタで開くと、それなりに理解できるセンテンスや単語が表示されます。

3.BRF形式の点字ファイルをPEF形式の点字ファイル(Unicode点字)に変換

BRFファイルからPEFファイルへの変換します。変換にはDAISY Piplelineを使用しました。このブログでよく紹介しているDAISY Pipleline 2のほうではなく、DAISY Pipleline 1のほうです。

47
図 DAISY Pipleline 1でBRF形式の点字ファイルをPEF形式の点字ファイルに変換
変換後ファイル一式: pg35597_pef.zip
※上はUnicode点字です。テキストエディタで開くと昨今の最新のOSであれば、点字記号の並んたテキストが表示されるはずです。

4. PEF形式の点字ファイルをEPUBに変換しやすいテキスト形式のUnicode点字ファイルに整形

PEF形式の点字ファイルをEPUBに変換するコンバータは残念ながら、見つかりませんでした。次で変換に使用する「でんでんコンバーター」で変換できるようにテキストファイルに変更し、でんでんマークダウンの記述に変更します(ここは手作業)。
整形後ファイル一式: pg35597_txt.zip

5.Unicode点字のテキストファイルをEPUB形式に変換

でんでんコンバーターで4までで作成したテキスト形式のUnicode点字ファイルをEPUBに変換します。

電書ちゃんのでんでんコンバーター – でんでんコンバーター

変換後: a_treatise_on_the_brewing_of_beer_e_hughes.epub

6.EPUBに同梱する点字フォントを用意

5で作業を終えてもよいのですが、点字フォントを搭載していない端末もまだ多いため、点字記号フォントをEPUBに同梱します。今回使用したの@momdo_さんに教えていただいたライセンスフリーの以下のフォントです。

ただし、上で提供されているものは、TrueTypeフォントですので、EPUB 3の仕様でフォントのコアメディアタイプに指定されているWOFFフォントとOpenTypeフォントも用意したいところ。
今回は以下を使用してTrueTypeからWOFFフォントとOpenTypeフォントに変換しました。

5で作成したEPUBファイルの中を開いて以下の記述をそれぞれ追加します。

@font-face {
font-family: Braille6;
src: url(font/braille6.otf) format('opentype'), url(font/braille6.ttf) format('truetype'),url(font/braille6.woff) format('woff');
}
body {
text-align: justify;
text-justify: inter-ideograph;
font-family: "Apple Braille", Georgia, "Segoe UI Symbol", Braille6, monospace;
vertical-align: baseline;
word-wrap: break-word;
}

OEBES/style.css

・・・

OEBES/content.opf

追記 埋め込みに使用した点字フォントについて

埋め込んだ点字フォントが表示される場合は、以下のようにスペースに当たる部分が□で表示されます。
38
これは埋め込み使用した点字フォントにUnicodeにおけるU+2800に割り当てるべきフォント(点字における全く点のないフォント、つまり、点字における空白スペース)が用意されていないために生じている問題です。この問題を改善するためには埋め込むフォントそのものに手を入れる必要がありますが、フォントの改修はこのエントリの目的を超えるものになりますので、このままとさせていただきます。ご了承ください。

参考

点字フォントの埋め込みについては、@momdo_ さんが以下のブログでまとめていただいていますので、こちらもご参照ください。

7.EPUB形式の中のメタデータを修正

現時点ではメタデータの拡張どころか、詳細なメタデータ情報を表示するリーディングシステムがあまり多くないため、メタデータの記述で頑張ってもそれをあまり生かせませんが、せっかくの点字図書なので、メタデータのタイトルと著者には、墨字と点字の両方を記述したいところです。というわけで、dcterms:alternativeとdcndl:creatorAlternativeを使用して点字版のタイトルと著者をそれぞれ記述しました。点字記号のタイトルや点字記号の著者の方をdc:titleやdc:creatorにするべきかもしれませんが、スクリーンリーダーなどで読み上げることを考慮して墨字タイトル・著者をdc:titleやdc:creatorにあてました。

urn:uuid:9a2b5539-34b4-469e-824b-5371cac917fa
uuid
A Treatise on the Brewing of Beer[braille]
⠂⠁⠀⠂⠂⠞⠗⠑⠁⠞⠊⠎⠑⠀⠂⠂⠕⠝⠀⠂⠂⠞⠓⠑ ⠂⠃⠗⠑⠺⠊⠝⠛⠀⠂⠂⠕⠋⠀⠂⠂⠃⠑⠑⠗⠡
E. Hughes
⠀⠂⠑⠹⠀⠂⠂⠓⠥⠛⠓⠑⠎⠹
application/epub+zip
en-US
false
2013-09-03T16:30:43Z

OEBES/content.opf
※dcterms:alternativeとdcndl:creatorAlternative部分の点字記号がうまく表示できない場合はこちら

8.EPUBファイルを再作成

以上の修正を終え、zipコマンドで再度、EPUBを再作成します。

cd pg35597
zip -0 -X ../pg35597.epub mimetype
zip -r ../pg35597.epub * -x mimetype


図 EPUBへ変換する前のソースファイル

9.作成したEPUBファイルをバリデート

8で作成したEPUBを念のため、バリデータで確認します。ここで結構ひっかかりました・・。

10.デキタ! ヽ(`・ω・´)ノ

バリデータが祝ってくれたら完成です ヽ(`・ω・´)ノ
39
図 問題なしということで、祝ってくれるEPUB Validatorの図
完成版(再掲): pg35597.epub

関連エントリ

私がOPDSを推す理由 – 電子出版業界にも「混沌」とした世界を

 昨日、こんなニュースが流れました。

 ウェブ上では、予想通りNTT出版に対して厳しい意見が多いですが、NTT出版の姿勢はともかく、別の出版社から出版できたという結果はもっと評価されてよいのではないかと思うのです。
 出版社の多くが私企業ですので、個々の出版社レベルではその時々における個々のいろいろな事情で、出版できるものもあれば、出版できないものが出てくるのはある程度はやむを得ないところがあろうかと思います(それが望ましいかどうかは別にして)。しかし、出版界の健全性を問うならば、その場合に、別の出版社で出すという選択肢が用意されているか否かが重要です。A出版社でだめなら、B出版社、B出版社がだめならC出版社で出版できるという選択肢が著者に用意されていることが出版界の健全さを示すものではないかと思うのです。
 経済産業省が公開している特定サービス産業実態調査報告書(平成22年度)によれば、日本の出版社は2,883社はあるらしいです。

 出版社数は統計によってかなり開きがあったように記憶していますが、それにしても3,000社弱。多いです。あえて単純化して申せば、著者にはこれだけの選択肢がある。出版社が構成する業界団体もいろいろとありますが、全出版社が参加するような業界団体は日本には未だ存在しません。出版界全体が1つとして動くことができないことは、出版業界の業界としての「統制」のなさを示すものであるかもしれませんが、その「まとまり」のなさ、「混沌」とした状態は、出版界の多様性を担保し、著者に多くの選択肢を提供するものでもあり、必ずしも否定するべきものではないように思います。
 一方で、「電子書籍」業界では、著者に対して複数の選択肢が用意されているのかというと、いささか心もとない気がします。コンテンツプロバイダである出版社の多さはある程度維持されるかもしれませんが、発行から読者への販売/配信(リーチ)に至る部分がAmazon、Google、Appleのような大きなプラットフォームに集約されていく可能性が大きくなっています。巨大プラットフォームとはいえ、一私企業であり、企業の利益や方針、その時々の箇々のの事情によってあっさりと販売・配信を拒否することもありえます。紙の世界と異なり、「電子書籍」業界では、他のところで発行できるという選択肢が極端に狭められていく危険があるように思えます。物議を醸した『完全自殺マニュアル』のような書籍を「電子書籍」として刊行することができるか否かです(『完全自殺マニュアル』そのものの是非はここでは置いとくとして)。
 「電子書籍」、後で述べるOPDSの対象となる範囲も考慮し、もう少し広く捉えて「電子出版」業界としますが、電子出版業界においても出版物の多様性を担保するためには、紙の世界と同じように、著書が読者に届くまえのルートに多くの選択肢が著者に用意される必要があります。言い換えると電子出版業界にも「まとまりのなさ」、ある種の「混沌とした世界」があってほしいと。
 私がOPDSを推すはまさにそのためです。

 先日、Open Annotationを紹介しましたが、個人的には、OPDSに対する興味と根は同じところかもしれません。大きな1つのものが世界を覆うよりは、統制されることのない個々の活動が結果として1つの世界を構成する、そういうものに興味があるようです。

EPUB 3からDAISYへの変換機能も必要じゃないの?というDAISY Pipelineのメーリングリスト上でのやりとり

 DAISYコンソーシアムが公開しているオープンソースのコンバーターDAISY Pipeline 2(開発中)は以下のようなDAISYの各バージョンからEPUB 3に変換する機能を持っています。

  • DAISY2.02 → EPUB3
  • DTBook(DAISY3のXMLドキュメント) → EPUB3
  • DAISY3 → EPUB3
  • DAISY -AI(DAISY4) XML → EPUB3
  • ※その他、HTMLファイル、点字ファイルへの変換も可能です。

 しかし、逆方向のEPUB 3からDAISYに変換する機能がありません(そして、現在公開されているロードマップにも開発の予定はありません)。
 EPUB3で作成されるコンテンツは日々増えているものの、現時点では、以下のエントリで紹介したようにDAISY再生ソフトウェア/機器のEPUB 3対応は不十分であり、EPUB 3ビューワーもDAISYユーザーが満足するほどアクセシブルではないという状況で、DAISYユーザーは増えていくEPUB 3コンテンツの恩恵を十分にうけることができません。

 
 EPUB 3をDAISY2.02やDAISY 3に変換し、DAISYユーザーが使い慣れている機器/アプリケーションで利用できるようにすることは、取り得る有効な選択肢の1つだと思われますが、同じように考える人がDAISY Pipeline開発陣の中にもいたようで、2013年1月にDAISY Pipelineの開発用メーリングリストでEPUB3_to_DAISYのコンバーターの開発の提案とそれに関する議論がされていました。

 個人的に関心があるところですので、少し詳しく紹介します。

メーリングリスト上のやりとり

 主に以下のお二人のやりとりです。お二人ともDAISY Pipleline 2開発に関わっている方のようです(Deltour氏は開発の中心メンバー?)。

 長いので先に結論を申し上げておきますと、一応EPUB 3からDAISYへの変換機能の開発をする方向ですすめていく・・・・ような感じではありますが、結論は出ていません。 

Jacobsen氏とDeltour氏のやりとり

Jacobsen氏の提案

 Jacobsen氏よりEPUB3から以下のようにDAISYに変換できる機能が必要じゃないかという提案です。

  • EPUB3 → DAISY2.02
  • EPUB3 → DTBook(もしくはDAISY3)
  • EPUB3 → ZedAI (いわゆるDAISY4)

https://groups.google.com/d/msg/daisy-pipeline-dev/yJIJqV7d1vQ/VYLT5qeHbMkJ
 

Deltour氏の回答

 Deltour氏はこのJacobsen氏の提案を妥当な提案であると認めつつ、

  • DTBookへ変換について: 文法的に寛容なHTML(そして、それを用いるEPUB 3)から文法的に厳格なDTBookへ変換は確実性を担保できないから難しい
  • しかし、EPUB3からDAISY 2.02への変換はDTBookと比べるとまだ容易かもしれない。

 ということで、EPUB 3からDTBook(及びDAISY3)への変換機能の開発には否定的なものの、DAISY 2.02への変換については比較的前向きな回答をしています。ただし、すでにDAISY Pipeline 2 プロジェクト計画書に掲載されたもっと優先順位が高いものに開発資源を割かねばならないため、DAISY 2.02への変換機能の開発にすぐにはリソースを割くことができない、との留保つきです。 
https://groups.google.com/d/msg/daisy-pipeline-dev/yJIJqV7d1vQ/QA6V20s6lwkJ
 

Jacobsen氏のNLBの状況説明

 Jacobsen氏、リソースをすぐに割けないことに同意しつつ、今回の提案の背景となったにNLBの状況説明(ちょっと蛇足になりますが、かなり興味深いので詳しく紹介します)。

  • NLBは紙の書籍を裁断し、OCRをかけた上でDTBookを制作している。DTBook制作は他の北欧諸国の機関と共同でインドのパートナー企業に外注している。
  • インドのパートナー企業との契約が2013年できれるので、そろそろ2014年以降の調達の計画とマークアップガイドラインの作成を始めなければならない。
  • 次の契約では、DTBookではなく、DAISY-AI(ZedAI/DAISY4)かEPUB 3を考えている。
  • 点字ファイルの作成について。現在は、DTBookからNorBrailleというツールを用いてPEF形式の点字ファイルに変換している(詳細: Braille production workflow at NLB)。
  • PEF形式への変換を、DTBookかDAISY-AI(ZedAI/DAISY4)をインプットファイルとするDAISY Pipelineを用いたフローに変更することを内部で検討している。
  • 音声DAISYの作成について。現在はDolphin Publisherを使用して、DAISY 2.02版のDAISYを作成している。Dolphin PublisherからHindenburg Audio Book Creatorに変更することを計画中。これならEPUB 3図書が作成できる。
  • もしEPUB 3形式のオーディオブックからDASIY2.02への変換が可能ならEPUB 3がオーディオブックのマスターフォーマットになるとJacobsen氏自身は考えている。
  • 教科書について。 XHTML 1.0形式の教科書データと、そして、おそらくDAISY3形式の教科書データを学生に配布している。しかし、代わりにEPUB 3形式の教科書データを配布すればよいので、EPUB 3からHTML形式やDAISY 3形式に変換することは私たちにはあまり必要ない。
  • 出版社からEPUB 3ファイルを受け入れるようになれば、そのEPUB3をインプットファイルとしてマルチメディアDAISYや点字ファイルが作成できるのだが・・・。

https://groups.google.com/d/msg/daisy-pipeline-dev/yJIJqV7d1vQ/bhz0flgqVvMJ

Deltour氏の回答
  • 技術的にJacobsen氏の要件は実現可能であるが、HTML(EPUB 3)からDTBookへの変換はやりにくいし、最優先の要件ではない。外注して作成するEPUB 3のHTMLファイルのマークアップをきっちり管理できるならやりやすくなるだろう。
  • EPUB3形式のオーディオブックからDAISY2.02形式のオーディオブックへの変換は未知の領域(しかし、Hindenburg Audio Book Creatorを使う方法は興味をそそられる)。
  • DAISY Pipelineの現行のプロジェクト計画書は2013年10月まで。その間はこの計画書に掲載されていることを優先してやらねばならないので、どうしてもこれらの要件を盛り込みたいのであれば、DAISYコンソーシアムの上を説得するか、理事会にうんと言わせて、この計画書を変更させなければならない。以下の3つの選択肢がある。
    1. 理事会の同意を得て、優先順位を上げてもらい現行のプロジェクト計画書期間内に行う
    2. 2013年10月以降のプロジェクト計画書に盛り込む
    3. 急ぐならDAISY Pipelineの開発メンバーを頼らずに自分たちでやる

https://groups.google.com/d/msg/daisy-pipeline-dev/yJIJqV7d1vQ/IVf-Glf0ifIJ

Jacobsen氏の回答

(意訳)
 自分でコーディングしてみたいなぁ・・・。とにかく他の機関で同じような要望がどれくらいあるかを聞いて、それから決めましょう。
https://groups.google.com/d/msg/daisy-pipeline-dev/yJIJqV7d1vQ/at-PhUU1QrUJ

その後 ※追記

 5月にDeltour氏がDAISY Pipelineの次の開発フェーズ(2014年1月から2015年12月)のOverview案を公開しました。

 この案では、DAISY Pipeline 1の機能を統合し、DAISY 2.02とDAISY 3を作成する機能を開発することが提案されていますが、EPUB 3から DAISYに変換する機能には触れられていません。
 当然、Jacobsen氏から「入ってねーじゃねか!」というツッコミがありました。さらに次のコペンハーゲンの会合で他の北欧諸国からもEPUB 3からDTBookへの変換機能の要望がでるかもよと(以上、意訳)。
 Deltour氏もDAISY2.02、DASIY3、DTBookからEPUB3、DAISY -AI(DAISY4)への移行が短期間で進むとは考えておらず、故にDAISY 2.02とDAISY 3を作成する機能の開発も次もフェースでと候補に挙げたとのことです。次のフェースの計画の詳細についてに話し合うときに、EPUB 3からDAISYへの変換機能も検討の候補に含めようと回答しています。
 ということで、2014年から始まる次のフェースでにEPUB 3からDAISYへの変換機能の開発が行われるかもしれません。

関連エントリ

EPUB 3とDAISY 4の関係
DAISYからEPUB 3に変換する
DAISY再生ソフト・機器のEPUB対応