ウェブアーカイブの利活用とMementoを扱ったAhmed AlSum氏の博士論文発表会スライド

 久しぶりに今回はウェブアーカイブネタ。 Old Dominion University、Web Science and Digital Libraries Research GroupのAhmed AlSum氏が博士論文の発表会で用いたスライドが公開されています。Ahmed AlSum氏のことはよくしらないのですが、スライドがMementoを中心にウェブアーカイブの利活用を中心にまとめて面白かったです。
 
 ウェブアーカイブというよりも、時間軸でウェブをどのように利用させるかと言ったほうが、伝わる方には伝わるかも知れませんね。それにもMemento台湾大学も参加していたことは知りませんでした。アジアでは最初ではないですかね。

 
 

関連エントリ

オライリー提唱の執筆・制作用フォーマットHTMLBook仕様案の日本語訳

公益社団法人日本印刷技術協会(JAGAT)XMLパブリッシング研究会が米国の出版社O’Reilly Mediaが提唱するHTMLBookフォーマットの仕様案及びHTMLBookの紹介ページの日本語訳を公開しています。
 HTMLBookはオープンで、XHTML5ベースでプリントとデジタル双方の本を執筆・制作するためのフォーマットです。XHTML5(HTML5)のサブセットでセマンティクスにEPUBの語彙(EPUB 3 Structural Semantics Vocabulary)を使用しています。

 PDF、EPUB、mobi(Kindle形式)、DAISYなどの電子書籍フォーマットをマルチに提供するO’Reilly Mediaですが、そのO’Reilly Mediaがgitでバージョン管理する出版プラットフォームAtlas(ベータ版)を立ち上げています。そのメインの制作用フォーマット(マルチフォーマット対応のためのソースファイル)にHTMLBookを据えようとしているようです。

 HTMLBookの仕様はまだドラフトの段階であり、HTMLBookの仕様案そのものがAsciiDoc形式で公開されているように、AtlasではまだAsciiDocがメインに使われているように思われます。なお、AsciiDoc形式の他にMarkdownDocBook XMLでの入稿も可とのことです(→参考)。
 HTMLBook、DocBook、AsciiDocの関係については、CAS-UBブログが以下のエントリで解説をしています。

 O’Reilly Mediaのマルチフォーマット対応については以下をご参照ください。

Web上でもっとも人気のある8つのドキュメントフォーマットとは

というブログのエントリを Duff Johnso氏が公開しています。

 
2011年4月からおおよそ半年ごとのWeb上のドキュメントフォーマットのシェアを示すグラフ。PDF、DOCX、XLSX、PPTX、EPUB、ODX、TXT/RTFのシェアを半年ごとに棒グラフで示している。PDFは概ね8割を占めている
PDF as a percentage of electronic document formats on the Web

 
 
 上のグラフの数値は公開もとのブログで掲載されていますので、そちらをご参照ください。
 上の調査の概要は以下のとおりです。

  • 調査はGoogleのファイルタイプ検索で行ったようです。
  • EPUB、Open Office files (ODT, ODP, ODS)、TXT、RTFは今回から調査対象に加わったものだそうですので、それ以前の調査には現れていません。
  • HTMLが調査対象にふくまれていませんが、HTMLの数は他のフォーマットの20-50倍はあるとされ、HTMLを含めてしまうと他のフォーマットを圧倒してしまい調査目的が果たせないこと、そもそもHTMLは “document”フォーマットではないよねぇという理由のようです。

 なお、Duff Johnso氏は、PDFの仕様を管理しているAIIMのBoardのチェアをつとめている方ですので、そこは留意する必要があるかもしれません。