7月 12

前のブログを閉鎖しまして、代わりに404からInternet ArchiveのWayback Machineに飛べるようにしました

 このブログと並行して公開していた”e-chuban blog”(http://wp.kzakza.com/)というブログを先日閉鎖しました。中国語圏の出版情報や図書館情報を集めていたブログでした。ここ数年はこの分野への私の関心が薄れてしまったせいもあって、更新頻度も激減し、最後の記事を掲載してから1年以上経過してしまいました。掲載している情報もかなり古くなってしまって、鮮度も落ちてしまった。もういいかなと。更新を停止してもブログをそのまま残しておくことも考えたのですが、更新しないブログにログインしてWordpressのアップデート等のメンテナンスをし続けるのも、もはや面倒。もういいかなと。

 そういうわけで、ブログを先日閉鎖しました。

 代わりにというわけではないのですが、e-chuban blog”(http://wp.kzakza.com/以下)にアクセスすると404のページからInternet ArchiveのWayback Machineに飛べるようにしてみました(ちょっとやってみたかった)。Wayback Machineに該当ページが保存されていれば、以下のようなリンクが表示され、収集されたページ誘導されるはずです。保存されていなければ表示されません。

Would you like to see an archived version of this page in the Internet Archive's Wayback Machine?

 自分のブログの全エントリを積極的にInternet Archiveに永久保存してほしいとはとても思えないので、保存依頼はとくせず、Internet Archiveに保存されるにまかせました。印象としては、保存されていればラッキーと思える程度という感じです。個人のブログだとそんなものですかね。

 これについてやったことは、404のページに以下の2行を追加したぐらいです。

<div id="wb404"/>
<script src="https://archive.org/web/wb404.js"> </script>

 
 この404については、以下を参照してください。

7月 07

British Libraryが現在、英国のウェブサイトを網羅的に収集中

British Libraryのウェブアーカイビングプロジェクト UK Web Archiveが6月12日より英国のウェブサイトを網羅的に収集しています。現在進行形で収集中。

 British Libraryは2013年から法に基づいて英国のウェブサイトの網羅的な収集(バルク収集)を開始しました。今回は2回目のバルク収集です。

 収集開始当日である2014年6月12日に掲載されたUK Web Archiveブログのエントリによると、前回の2013年は19億のURL、総容量で30.84TBのウェブリソース(ウェブサイトやイメージファイル、ドキュメントファイルなど)を集めたそうです。収集に70日かかったとか。今回は”.uk”ドメインと英国にホストがあると分かっている”.com”、 “.net”ドメイン “.info”ドメインなどを持つウェブサイトが収集の対象になるそうです。今年はどれくらい集まるか、その予想をハッシュタグ#ukwebcrawl2014で投稿するよう、Twitter市民に呼びかけたりもしています。

 現在の状況はUK Web ArchiveのTwitterのアカウント@UKWebArchiveで報告されています。2014年7月7日の報告では、3週間を経過したところで 8.4TBを収集したようです。

ハッシュタグは上にも出てきている#ukwebcrawl2014です。しばらくはこれで楽しめそうです。

5月 29

IIPC総会 2014のプレゼン資料が公開されている

ワークショップを含めると、5月19日から5月23日までフランスで行われていたIIPC総会 2014のプレゼン資料が以下で公開されています。

 ちなみにIIPCはウェブアーカイブ関係機関で構成される国際コンソーシアムです。Internet Archiveやウェブアーカイビングプロジェクトを進めている各国の国立図書館、研究機関がメンバーになっています。日本では国立国会図書館がメンバーになっています。IIPCについては、以下が日本語で詳しく紹介しています。

 今回の総会では、日本からは国立国語研究所の浅原先生達がウェブコーパスについて発表されていますね。

個人的にはロスアラモス研究所のMartin Klein氏のHiberlinkのプレゼンが興味深いと思いました。これはHiberlinkそのものに対してというよりは、いつの間にか私が追っかけをしてしまっている同研究所のHerbert Van de Sompel氏繋がりではあるのですが。

5月 29

ウェブアーカイブの利活用とMementoを扱ったAhmed AlSum氏の博士論文発表会スライド

 久しぶりに今回はウェブアーカイブネタ。 Old Dominion University、Web Science and Digital Libraries Research GroupのAhmed AlSum氏が博士論文の発表会で用いたスライドが公開されています。Ahmed AlSum氏のことはよくしらないのですが、スライドがMementoを中心にウェブアーカイブの利活用を中心にまとめて面白かったです。
 
 ウェブアーカイブというよりも、時間軸でウェブをどのように利用させるかと言ったほうが、伝わる方には伝わるかも知れませんね。それにもMemento台湾大学も参加していたことは知りませんでした。アジアでは最初ではないですかね。

 
 

関連エントリ

3月 04

オライリー提唱の執筆・制作用フォーマットHTMLBook仕様案の日本語訳

公益社団法人日本印刷技術協会(JAGAT)XMLパブリッシング研究会が米国の出版社O’Reilly Mediaが提唱するHTMLBookフォーマットの仕様案及びHTMLBookの紹介ページの日本語訳を公開しています。

 HTMLBookはオープンで、XHTML5ベースでプリントとデジタル双方の本を執筆・制作するためのフォーマットです。XHTML5(HTML5)のサブセットでセマンティクスにEPUBの語彙(EPUB 3 Structural Semantics Vocabulary)を使用しています。

 PDF、EPUB、mobi(Kindle形式)、DAISYなどの電子書籍フォーマットをマルチに提供するO’Reilly Mediaですが、そのO’Reilly Mediaがgitでバージョン管理する出版プラットフォームAtlas(ベータ版)を立ち上げています。そのメインの制作用フォーマット(マルチフォーマット対応のためのソースファイル)にHTMLBookを据えようとしているようです。

 HTMLBookの仕様はまだドラフトの段階であり、HTMLBookの仕様案そのものがAsciiDoc形式で公開されているように、AtlasではまだAsciiDocがメインに使われているように思われます。なお、AsciiDoc形式の他にMarkdownDocBook XMLでの入稿も可とのことです(→参考)。

 HTMLBook、DocBook、AsciiDocの関係については、CAS-UBブログが以下のエントリで解説をしています。

 O’Reilly Mediaのマルチフォーマット対応については以下をご参照ください。

3月 04

Web上でもっとも人気のある8つのドキュメントフォーマットとは

というブログのエントリを Duff Johnso氏が公開しています。

 
2011年4月からおおよそ半年ごとのWeb上のドキュメントフォーマットのシェアを示すグラフ。PDF、DOCX、XLSX、PPTX、EPUB、ODX、TXT/RTFのシェアを半年ごとに棒グラフで示している。PDFは概ね8割を占めている
PDF as a percentage of electronic document formats on the Web

 
 
 上のグラフの数値は公開もとのブログで掲載されていますので、そちらをご参照ください。

 上の調査の概要は以下のとおりです。

  • 調査はGoogleのファイルタイプ検索で行ったようです。
  • EPUB、Open Office files (ODT, ODP, ODS)、TXT、RTFは今回から調査対象に加わったものだそうですので、それ以前の調査には現れていません。
  • HTMLが調査対象にふくまれていませんが、HTMLの数は他のフォーマットの20-50倍はあるとされ、HTMLを含めてしまうと他のフォーマットを圧倒してしまい調査目的が果たせないこと、そもそもHTMLは “document”フォーマットではないよねぇという理由のようです。

 なお、Duff Johnso氏は、PDFの仕様を管理しているAIIMのBoardのチェアをつとめている方ですので、そこは留意する必要があるかもしれません。

2月 06

W3C Annotation Working Groupの憲章案が公開されている

先のエントリの続報になりますが、W3C Annotation Working Groupの憲章案が公開されています。 Digital Publishing Activityの下に設置されることになったんですね。

 すでにAnnotation Working Groupのメーリングリストは立ち上がっていて、 上の憲章案について意見が交換されています。
 

Open Annotationに関するエントリ

11月 12

TED「セルゲイ・ブリン: なぜグーグル・グラスなのか?」

今回は、Google Glassの話です。すでに知られすぎているので、今更さらな話ですが、Googleのセルゲイ・ブリンのTEDにおけるGoogle Glassの講演を観て、改めてすごいと思ったのでちょっと紹介。
 
  Google Glassを紹介した動画は以下で、

 Google Glassを語るセルゲイ・ブリンのTEDにおける講演は以下です。

 頭でこういうものだろうと想像できても、映像でみると受ける印象がかなり違いますね。ウェアラブルコンピューティングが少し前からいろいろと話題になっていますが、Google Glassはウェアラブルコンピューティングをわかりやすい形で実現するかもしれません。iPhone以来の新しいカテゴリのデバイスになるのではないかと思ったりも。
 
 Google Glassが私の興味をひいたのは、検索行動そのものが1つ上の段階に進むのではないかと思わせたことです(えっ、今更言うか・・・。

 Googleの検索技術がどんなに進化しても、Googleの基本的はサービスは検索窓からキーワードを放り込んで検索させるテキスト検索です。人が脳内にある探したいものをキーワードに変換してアウトプットせねばならない点では、検索そのものはそれほど進化はしていないともいえます。頭の中にぼんやりとある調べたいこと、探したいことを、キーワードという抽象的なものにものに変換するフローですでにいろいろな情報が削られてしまっている。適切なキーワードに変換できないこともある。間にキーワードに変換するというフローがあるために必要な情報に正確にたどり着けなかったりするであろうと。

 理想は頭の中にぼんやりとある調べたいこと、探したいことを直接そのまま検索エンジンに理解させて探させることです。スマートフォンなどが搭載する各種センサーはそれを実現させる筆頭であろうと思っていましたが、Google Glassも視覚情報をベースに検索という行為を少しそっちよりにもっていくかもしれない。

10月 27

Internet ArchiveのWayback Machineが大幅にサービスをリニューアル

先のエントリでアプリケーションのWaybackの話を紹介しましたが、今回はInternet Archiveが提供するWayback Machineというサービスの話です。Internet ArchiveのWayback Machineが10月25日リニューアルし、サービス・機能を大幅に強化しました。

00
Internet Archive: Wayback Machine

 リニューアル前の画面も当然ですが、Internet Archiveに保存されていますので、見ることができます。
11
Internet Archive: Wayback Machine 2013/10/21

リニューアルの詳細

  リニューアルの詳細は、以下のIAブログで紹介されています。「この世界(インターネット)は俺たちに任せろ」といわんばかりのInternet Archiveの「アーカイブ」に対する強い自負が感じられるエントリです。

 まとめると以下になります。

1.アーカイブされたウェブページをより早く公開

 アーカイブされたウェブページをクローラーで収集されてから1時間強で利用できるようになりました。これまでは利用できるまで数ヶ月かかっていたようですので、すごい時間短縮です。


収集したことを知らせるとともに、利用できるようになるまで数ヶ月かかることを知らせる従来のメッセージ
from
Internet Archive“Wayback Machine” | 世界のウェブアーカイブ|国立国会図書館インターネット資料収集保存事業より

2.インスタント・オンデマンド・アーカイブサービス

 と、勝手ながら呼ばせていただきましたが、Internet Archiveはユーザーのリクエストに応じてウェブサイトにクローラーを走らせ、ウェブページを保存するサービスを開始しました。

 アーカイブされてから提供されるまで1で紹介したような機能強化がされても1時間強はかかりますが、リンクを貼るためのWayback Machineにおけるウェブページの固定URLはユーザーがアーカイブをリクエストをしたタイミングで知らせてくれます。

 ウェブページを引用や参考文献に使いたい研究者やWikipediaの執筆者、法律家、学生などだれでも利用することができます。1のクローラーによる収集からアーカイブされたウェブページの公開に至るまでの時間短縮とあわせて考えるとこれは凄い機能です。

 簡単に流れを紹介しますと

 トップページに以下のようなフォームが用意されています。Internet Archiveに保存を依頼したいウェブページのURLを入力します。
Save Page Nowというフォーム

そうすると、すぐにIAのクローラーが走り、ウェブページのアーカイブが開始します。
アーカイブ処理中をしらせる画面

無事、アーカイブ処理が終了するとその固定URLが表示されます。
アーカイブ処理が終了したことをしらせ、その固定URLが表示される

 上のURLでアーカイブされたウェブページが利用できるようになるのは、1時間ほど先ですが、固定URLはすぐに取得できます。論文やなにかの執筆などに挙げる参考文献のために安定したURLを提供する機能として考えれば、アカデミズムへの貢献という観点からみてもウェブアーカイブの面目躍如たる機能だと思います。

3.Wayback Availability JSON API

 Wayback Machineに保存されているかどうかをプログラムによって確認できるWayback Availability JSON APIが公開されました(おそらく新規公開)。

4.Web上からリンク切れをなくす取り組み

 Internet Archiveがアーカイブしたウェブサイトをオリジナルのウェブサイト管理者に活用してもらうことで、リンク切れをなくす取り組みです。

WordPress.com及びセルフホストでWordpressで構築されたウェブサイト

 WordPress.comで公開されているブログと、Wordpressによりセルフホストで構築されたサイト(えっ・・汗)、そして、それらからリンクが貼られている外部のウェブページを含めて、Internet Archiveはクローラーを走らせて保存しているそうです(1日URL300万件分が保存されているとのこと)。

 リンク切れがあった場合にInternet Archiveが保存したウェブサイトのURLに自動的に変更するWordpressのプラグイン”Broken Link Checker”をInternet Archiveが作成し、提供しています。

Wikipedia.org

 Wikipedia.orgの全ての更新記事や新規記事に掲載されている外部リンク先(outlinks)のウェブサイトにクローラーを走らせ、Wikipedia.orgからリンクを貼られているウェブサイトを保存しているそうです(1日URL500万件分が保存されているとのこと)。

 Wikipediaから貼られた外部のウェブサイトが仮に消失してしまい、リンク切れになったウェブサイトは自動的にInternet Archiveが保存したウェブサイトのURLに自動的に変更されるような仕組みについて、Internet ArchiveとWikipediaで協議しているとのことです。

全てのウェブマスター向け

 全てのウェブマスターに以下の数行を404ページに追加することを呼びかけています。

<div id="wb404"/>
<script src="https://archive.org/web/wb404.js"> </script>

 404ページに上の2行のタグを追加しておくと、あるURLのページが消失し、404画面が表示される際に仮にそのURLの過去のウェブサイトがInternet Archiveが保存されていた場合は以下のような案内を404画面に表示して、Wayback Machineに誘導してくれます。

その例が以下です。

 詳しくはIAブログの以下をご参照ください。

 Internet Arhiveのブリュースター・ケール氏、Internet Archiveへのアクセスの集中がすごいために、アクセスを散らすためにSiteless WebsiteなどというP2P方式のコンテンツ提供方式を考えたりしているらしいのですが、そんなInternet Achiveがアクセスを減らす方向ではなく、よりアクセスを集めそうなサービスを展開する、その姿勢はすげーと思います。

関連エントリ

10月 26

Internet ArchiveがHistorical Software Archiveを公開。あのソフトウェアをブラウザ上で実行できるぞ

  Internet Archiveが10月25日にHistorical Software Archive(Historical Software Collection)を公開しました。Internet Archiveはすでに過去のソフトウェアをアーカイブしたSoftware Collection を公開していますが、Historical Software Archiveはその中から著名で歴史的に重要なものを集めたコレクションだそうです。

 Historical Software Archiveと他のソフトウェアコレクションとの違いは、Historical Software Archiveのほうはソフトウェアをブラウザ上で実行できるということでしょうか。JSMESSというJavaScriptベースのエミューターが使用されているそうです。JSMESSが対応している環境が多くてすごい・・・。

 公開されているソフトウェアは28とまだ多くはなく、気のせいか、いや、まちがいなく、ゲームが多くを占めているような・・・。その多くないタイトルの中にあのカラテカがあったりして、ブラウザで遊べたりとか・・・。