DAISY4からEPUB3への橋渡し役、DAISY Pipeline 2

 先のエントリで紹介したように、DAISY4こと、ANSI/NISO Z39.98-2012の仕様が先日正式に公開されました(以下、ANSI/NISO Z39.98-2012をDAISY4)。これはいわゆる中間(交換)フォーマットの仕様で、そのまま利用者が読書をする目的のフォーマットではありませんので、利用者が読書に利用するためにはEPUB、DAISYなどの配布フォーマットに変換する必要があります。そのDAISY4と配布フォーマットの間を橋渡しをする役目を担うのがDAISY Pipeline 2です。
DAISY Pipeline2
http://www.daisy.org/pipeline2/

(河村 宏氏の講演「DAISYの新時代―EPUB3を使って自分らしい知識のスタイルを選ぶ」より)
 今回は、DAISY4と並んで重要である配布フォーマットへの変換ツール、DAISY Pipeline2をその使用方法を含めて紹介します。なお、このエントリを書いている2012年8月22日時点で2012年7月3日に公開された2.1.3beta版が最新となっていますので、この2.1.3beta版を中心に話を進めていきます。

1.出入力フォーマット

 現時点でDAISY Pipeline 2.1.3betaで変換出来るフォーマットは主に以下の通りです。上では、DAISY4を起点にと、紹介しましたが、DAISY2.02などからもEPUB3に変換することができます。

  • DAISY2.02 → EPUB3
  • DTBook(DAISY3のXMLドキュメント) → EPUB3
  • DTBook(DAISY3のXMLドキュメント) → DAISY4 XML
  • DAISY4 XML → EPUB3

 現時点では、DAISY3、DAISY4については、出入力ともそれぞれのコンテンツファイル部分(DAISY3、DAISY4という器のなかに入っているコンテンツ本体)のみの対応になっているようです。
将来的に以下のように出入力フォーマットとしてDAISY3、DAISY4に対応していく必要があります。

  • DAISY3 → EPUB3
  • DASIY3 → DAISY4
  • DAISY4 → EPUB3

  DAISY3→EPUB3は、2012年6月以降の開発スケジュールに組み込まれています。それ以外のDAISY4→EPUB3、DASIY3→DAISY4はロードマップには掲載されていませんが、”ZedAI to EPUB 3“のLimitationの行間を読むといずれ対応するのではないかと思います。
 
 その他、ドキュメントで確認できた範囲では今後、以下の変換に対応できるようにするとのことです。

  • Word/ODT → EPUB3
  • HTML5 → EPUB3
  • DAISY4 → PEF(点字)

  点字とTTSについては、WGが立ち上がって議論が進められている(いた?)ようです。これは期待したいですね。
 点字
Pipeline 2 Working Group: Braille Production
Braille WGのまとめた要件、議事録など
 
 TTS
Pipeline 2 Working Group: TTS-based Production
TTS WGのまとめた要件、議事録など

2. インターフェイス

 DAISY Pipeline2で提供されているのは、現時点ではCI版のみです(Pipleline1はすでにGUI版の提供あり)。ローカルで実行する場合は、Windowsならコマンドプロンプト、Mac OS、Linuxならばターミナルを使用しましょう。なお、開発ロードマップによると、GUI版も2012年12月に公開される予定とのことです。
 
 また、これはユーザーというよりも開発者向けの話になりますが、開発中であるものの、Web UIとしてWebサービスとして展開することも可能なようです。
DAISY Pipeline 2 Web UI

3.DAISY Pipeline 2を使う

 
 簡単ですが、実際に使用法を紹介します。

3.1. 対応OS

 Windows/Mac OSX/Linux

3.2. ダウンロード

 以下でダウンロードできます。
Downloads – daisy-pipeline

3.3. インストール・実行環境

 とくにインストールは必要ありません。解凍したフォルダを作業しやすい適当なディレクトリに置いてください。
 ただし、プログラムの実行にはRubyとJavaを実行できる環境が必要です。詳細はREADME.txtもしくは以下を参照してください。Mac OSならば、RubyもJavaもすでにはいっているはずです。
Installing the Pipeline2
 

3.4. DAISY AI(DAISY4 Book Profile)を変換してEPUB3を生成してみる

 まずはDASIY Pipeline2の実行の基本から。README.txtに記載のあるとおり、カレントディレクトリをcliディレクトリに変更して実行します。

 
   
 では、サンプルファイルとしてついている以下のDAISY4のコンテンツファイル、alice.xmlをEPUB3に変換してみます。

  コマンドの構文は以下です。

#Windows
 cli/dp2.exe command [option]
#Mac OS/Linux
 cli/dp2 command [option] 
 

 
  今回は私はMac OS上で実行して、EPUB3に変換したのでコマンドは以下のようになります。

 
 $ cli/dp2 zedai-to-epub3 --i-source samples/zedai/alice.xml --x-output-dir  samples/output 
 

 上のコマンドを分解すると以下のようになります。

  • cli/dp2: アプリケーションの指定。Windowsなら cli/dp2.exe
  • zedai-to-epub3: zedaiからepub3を生成を命令するコマンド
  • -i-source:入力ファイルを指定するオプション。今回は”samples/zedai/alice.xml”と指定。
  • –x-output-dir:変換して出力するEPUB3の置き場所を指定するオプション。今回は”samples/output”ディレクトリ下に出力するように指定。

実行すると以下のようにソースファイルからうねうねとEPUB3へ変換していってくれます。

 
 $ cli/dp2 zedai-to-epub3 --i-source samples/zedai/alice.xml --x-output-dir samples/output
[DP2] Waiting for the WS to come up
[DP2] The daisy pipeline 2 WS is up!
[DP2] Job with id b86104ce-30c8-4527-936d-e43e6969e66b submitted to the server
[WS] INFO(1) - Message:writing in-memory document to file:/Users/hogehoge/daisy-pipeline/samples/output/epub/Content/alice-1.xhtml
[WS] INFO(2) - Message:writing in-memory document to file:/Users/hogehoge/daisy-pipeline/samples/output/epub/Content/alice-2.xhtml
          ・
          ・
          ・ 
[WS] INFO(5) - Message:copying disk file to file:/Users/hogehoge/daisy-
[WS] INFO(13) - Message:copying disk file to file:/Users/hogehoge/daisy-pipeline/samples/output/epub/Content/images/alice09a.png
[WS] INFO(14) - Message:writing in-memory document to file:/Users/hogehoge/daisy-pipeline/samples/output/epub/Content/package.opf
[DP2] The job b86104ce-30c8-4527-936d-e43e6969e66b has been deleted from the server
[DP2] DONE 
 

 
 ”DONE”と表示されると指定したディレクトリにEPUB3ファイルとEPUB3としてパッケージ化する前の状態のファイルが生成されています。

  
 今回実行したのは、zedai-to-epub3というコマンドですが、他にも以下のようなコマンドが実行できます。

  • dtbook-to-zedai(DTBookからDASIY4のコンテンツファイルに変換)
  • daisy202-to-epub3(DAISY2.02からEPUB3に変換)
  • dtbook-to-epub3(DTBookからEPUB3へ変換)

 オプション等はヘルプコマンドや以下のページでも参照することができます。samplesディレクトリにはDAISY2.02、DTBook(DAISY3)、ZedAI(DAISY4)のサンプルファイルもありますで、興味をお持ちの方はぜひお試しください。
Scripts — Short description of available scripts with links to each script
 なお、最後になりますが、以下のワークショップのスライド資料も参考になります。
Pipeline 2 Web Service Workshop: Integration and Interoperability 
  

関連エントリ

EPUB 3とDAISY 4の関係
DAISYからEPUB 3に変換する
DAISY再生ソフト・機器のEPUB対応

ANSI/NISO Z39.98-2012 (DAISY4) の読み方指南である"1.3 Overview"の 日本語訳

DAISY4こと、ANSI/NISO Z39.98-2012の仕様がついに正式に公開されました。
ANSI/NISO Z39.98-2012 Authoring and Interchange Framework for Adaptive XML Publishing Specification
http://www.daisy.org/z3998/2012/z3998-2012.html
次世代DAISY規格(ANSI/NISO Z39.98-2012)が公表 | カレントアウェアネス・ポータル
この仕様の1章3節の”Overview”がこの仕様を概観し、その読み方を指南するガイドラインになっています。読解の一助になればと”1.3 Overview”を日本語に訳してみました(以下)。あくまで非公式の翻訳ですので、参考程度にお読みください。
翻訳・解釈の正確性を保証しておりません。誤訳の指摘はコメント欄や Twitter(@kzakza) にお願いします。


原文: ANSI/NISO Z39.98-2012 (DAISY4)  1.3 Overview
http://www.daisy.org/z3998/2012/z3998-2012.html#introductionSpecOverview

1.3 Overview(概要)

この仕様に従うprofileを作成するには、このドキュメントの中で概説される様々な概念と技術が情報リソースを定義するためにどのように結びつけられているかを理解する必要がある。XMLテクノロジーに十分に慣れ、本仕様を一気に読み進められる者もいるだろうが、本概要では初心者と経験豊富な開発者のためにprofileがどのように構築されているのか、そして、どこで要件が定義されているのかについてのクイックレファレンスガイドを提供する。
Z39.98-AI の仕様の核といえるものがAbstract Document Modelである。Abstract Document Modelは全てのprofile実装を通して共通するフレームワーク、そして、文法間の一貫性と予測可能性を担保するためにprofile作成者が忠実に従わなければならないハイレベルのルールを導入する。Abstract Document Modelはprofileを構築するための地図のようなものであり、その概念は 4, Abstract Document Modelで十分に解説されている。
Abstract Document Modelは抽象的な概念を強制するルールを定めることを伴うprofile作成のプロセスであるため、Abstract Document Modelを理解することは、以下のFigure 1で描かれているような本仕様のその他の部分を理解するために不可欠である。

Overview of the Z39.98-AI profile creation process
Figure 1: Z39.98-AIプロファイル作成プロセスの概観

profileはZ39.98-AIの仕様の実質的な産物であり、情報リソースの構造を定義するmarkup modelsという形になる。profileを作成するためのそのルールと要件は 6, Profiles において詳述されている。
profileはモジュール方式モデルに基づいている。それによって、component definitions(構成要素定義) がZ39.98-AIの複数のprofileに渡って再利用できるようになり、その他の工業規格の文法を取り入れることができるようになっている。本仕様の次のセクションでは以下のようにそれらの構造における様々なパーツについて紹介する。

  • 5, Modules– moduleは意味論的にかつ/または構造的に自身を示す特質を通してリンクされた要素と属性のセットである。moduleはprofileが作成され、moduleのcomponent(構成要素)が新しい文法を構成する構成単位になった時に有効化される。
  • 5.6, Core modules– core moduleは複数のprofileに渡る構成要素の再利用を推奨するためにZ39.98-AI ワーキンググループによって開発されたmoduleのセットである。
  • 7, Features– 縮小図であるprofileと高度に専門化したmoduleの間をとったようなもので、featureは非常に特殊な構造(例えば、MathML、ルビなど)を表現するために複雑なマークアップを提供する。featureはZ39.98-AIのドキュメント類の間で専門化したマークアップの一貫性を担保し、Z39.98-AIのprofileが適切に工業規格と足並みを揃えていることを担保する助けとなる。

RDFはドキュメントのメタデータの表現と要素が持つ意味の意味論的変化(semantic inflection)のためのフレームワークによって提供される第一の手段である。profile作成者はデータに注釈をつけるために他の方法を使用するかもしれないが、 本仕様に強い結びつきのあるRDF vocabularies(RDF語彙) の使用が推奨されている。利用可能な要素と語彙を採用する方法に関する情報は11, RDF vocabulariesで参照することができる。
完成したprofileは用法とその他のドキュメントに加えスキーマファイル、RDF語彙、付加的な散文制限のような異なる様々なリソースから構成されている。profileの作成はidentity URIをprofileに割り当てる行為である(6.3.1, Profile identity URIを参照せよ)。identity URIが示す場所でリソースを一覧し、その取得する方法に関するさらなる情報を提供するresource directory ドキュメントが利用できる。resource directoryとドキュメントの作成方法に関する完全な情報は10, Resource directoriesで参照することができる。
本仕様はドキュメントの作成の際に有効な一般に利用可能にしたprofileのカタログも含んでいる(Appendix A, Profile, feature, and vocabulary catalogs で利用できる)。作成者はこれらのprofileを使用することが必須とされているわけではないが、これらのprofileはその採用を推奨するため幅広く利用されるにたり得るものとして設計された。これらのprofileは開発者や本仕様の実質的な表現を探す個人を対象にした本仕様に準拠した実装を表現している。
本仕様は特にドキュメント作成者を対象にしたものではないが、ドキュメントを識別するためにもつことが必須になっているメタデータに加え、ドキュメントが適合するprofileの指定法、使用されるfeatureなどドキュメント作成の全般的な性質に関する情報を記載している。その情報は8, Documentsで参照することができる。
本仕様は Open Container Format [OCF]をベースとしたパッケージフォーマットも取り入れており、Z39.98-AI document setを構成するXML、イメージ、その他のローカルに置かれたリソースをまとめるために利用されるかもしれない。これらのファイルの交換を容易にするためにこのコンテナフォーマットのMIME type [RFC2046] も指定している。その情報は9, ContainerAppendix C, Media type registrationで参照することができる。
プロセシングエージエント(訳者注:Z39.98-AIドキュメントを処理するアプリケーション 参照 processing agent)の開発者は上で概説した全てのトピックを充分に理解することに加え、自分が作成するアプリケーションが12.2, Processing agent conformance definitionで詳述されている適合性要件を満たすことも担保しなくてはならない。

EPUB3が ISO/TS (Technical Specification)になるようです。

 ISO/IEC JTC1/SC34/AHG4 ※1においてEPUB3の国際規格化に向けた議論が進められています。そのAHG4のコンビーナを務める村田真氏(@muratamakoto)の先日のツィート(以下)によると、議論の結果、EPUB3を正式規格IS(International Standard:ISOの正式規格)の一歩手前の段階であるISO/TS (Technical Specification)※2にすることでIDPF※3、ISO/TC46※4、IEC/TC100※5、JTC1/SC34の間で合意したとのことです。
   

  村田真氏とともにAHG4の共同コンビーナを勤める韓国のYong-Sang Cho氏(@zzosang)のツィートもあわせて以下に掲載します。

(上をGoogle翻訳)
予想されるように、電子出版の標準#EPUB3はISO/ IECのTechnical Specificationに推進そうです。技術委員会の間の合意によって…韓国で提案します。目標は、2013年上半期中に終了。

 韓国語を私が読むことができないため、Yong-Sang Cho氏のツィートは機械翻訳に頼ってしまいました。そのため、翻訳もやや不確かなところがありますが、おおよそのところは理解できるのではないかと思います。2013年上半期にISO/TS化ということなのでしょうか?
 
 村田真氏とYong-Sang Cho氏が言及されているISO/IEC JTC1/SC34/AHGの電話会議の議事録がすでに公開されています(以下)。
[PDF]Minutes of the 2012-06-20 Teleconference of ISO/IEC JTC1/SC34/AHG4 (第6回電話会議議事録)
  結論部分はまだドラフトの段階ではありますが、ここでは以下の3つが挙げられています。

  • 本件について最終的な議決をするためにJTC1/SC34はAHG4(の活動期間?)をさらに更新することをAHG4は勧める。
  • JTC/SC34の下にJWG(Joint Working Group)を作り、ISO/TC46、IEC/TC100のようにEPUBに関心を持つ委員会がこのJWGに参加することをAHG4は勧める。
  • 韓国からEPUB3がTechnical Specificationの草案としてJTC1にfast-track submission ※6されることをAHG4は歓迎する。

 
 この会議では長期保存(digital preservation)や韓国のEPUB国家規格化にむけた動向についてもトピックにあがっており、なかなか興味深いところです。
 
【参考】第5回以前の電話会議の議事録。
[PDF]第5回電話会議議事録(2011-08-2)
[PDF]第4回電話会議議事録(2011-07-27)
・第3回電話会議議事録(公開されているか不明)
・第2回電話会議議事録(公開されているか不明)
[PDF]第1回電話会議議事録(2011-02-09)
 

※2012/07/02追記

 
[PDF]Resolutions of the ISO/IEC JTC 1/SC 34 Plenary Meeting, Brasilia, Brazil, 2012-06-25, 29

Resolution 8: Re-establishment of Ad Hoc Group 4 on EPUB
SC 34 re-establishes Ad Hoc Group 4 on EPUB of IDPF* with the following terms of
reference:
– to prepare the creation of a Joint Working Group (JWG) for EPUB (and possibly
other related topics) under JTC 1/SC 34 with ISO TC 46 and IEC TC 100 /TA 10
involved.
SC 34 notes that EPUB 3 will be submitted as a Draft Technical Specification by the
Korean National Body via the JTC 1 fast-track procedure and it will be assigned to the
SC 34/JWG when approved.
SC 34 re-appoints Dr. Makoto MURATA (Japan) and Dr. Yong-Sang CHO (Korea) as the
Co-Convenors of this ad hoc group.
*=International Digital Publishing Forum (http://www.idpf.org/)

【註】

※1 ISO/IEC JTC1/SC34/AHG4

 International Organization for Standardization/International Electrotechnical Commission Joint Technical Committee 1/SubCommittee 34/Ad Hoc Group4。日本語に訳すなら国際標準化機構 (ISO) と国際電気標準会議 (IEC) の第一合同技術委員会第34専門委員会第4特別班。つまり、文書の記述と処理の言語の標準化について検討する専門委員会(SC 34)の下にアドホックグループがつくられて、その中で議論が進められています。
ISO/IEC JTC 1/SC 34
http://www.itscj.ipsj.or.jp/sc34/ 

※2 ISO/TS (Technical Specification)

ISO/TS (Technical Specification)については、以下をご覧ください。
用語の知識 ISOにおける技術文書
ISO規格 | 調べ方案内 | 国立国会図書館

※3 IDPF

International Digital Publishing Forum。EPUBの標準化団体。
http://idpf.org/

※4 ISO/TC46

ISO/TC46(International Organization for Standardization/Technical Committee 46。「情報とドキュメンテーション」に関する技術委員会。
http://www.iso.org/iso/iso_technical_committee.html?commid=48750
E1300 – 2012年ISO/TC46国際会議<報告> | カレントアウェアネス・ポータル 

※5 IEC/TC100

International Electrotechnical Commission/Technical Committee 100。オーディオ・ビデオ・マルチメディアシステムおよび機器に関する専門委員会。
http://tc100.iec.ch/index_tc100.html
  ISO/IEC JTC1/SC34/AHG4には、TC100/TA10(マルチメディア電子出版及び電子書籍)の人が主に参加しているようです。
 

※6 fast-track submission

 いくつかの段階を省略して規格化を迅速に行うための手続きのことのようです(詳細は以下の26、27ページをご覧下さい)。
[PDF]標準化教育プログラム [共通知識編] 第8章 国際規格の作り方