Mementoのサーバーサイド分散型ウェブアーカイブ "SiteStory Web Archive"

　先のエントリで、MementoによるInternet ArchiveとUK Archiveの統合検索について紹介しました。今回はそのMementoのサーバーサイド分散型ウェブアーカイブ “SiteStory Web Archive”を簡単ですが、紹介します。ちなみにMemento自身はこれを”Transactional archiving”と呼んでいるようです。

SiteStory Web Archive – SiteStory Transactional Web Archive

　
　なお、「サーバーサイド分散型ウェブアーカイブ」とは、ウェブサイトを置いているサーバー自身にウェブサイトを保存する（セルフアーカイブする）仕組みを指しており、Internet Archiveのような集約型ウェブアーカイブと対照して、便宜上この場で使わせていただいている言葉です（先のエントリでも便宜上使用しましたが）

SiteStoryによるウェブアーカイブのしくみ

　紹介する、といいつつも、カレントアウェアネスの以下の記事の「ユーザがアクセスした際にそのコンテンツを保存するという“Transactional”なウェブアーカイブ」という紹介でほぼ説明し尽くされています。

“Transactional”なウェブアーカイブを行うオープンソースソフトウェア“SiteStory”が公開 | カレントアウェアネス・ポータル

　ウェブサイトのユーザーからアクセスされたタイミングでその時点のコンテンツがサーバー（Apache Web Content Server）内に保存されます。プロキシのキャッシュを永続化するようなしくみでしょうか。アクセスが多いコンテンツほど保存され、また、高い頻度で保存されます。

ウェブサイトのユーザーからアクセスされたタイミングでウェブサイトをサーバーに保存する。保存されたウェブサイトはMememntoのHTTP拡張プロコロルを使う他のユーザーによって利用される — SiteStoryによるウェブアーカイブのイメージ

　
　ウェブサーバーに保存されたウェブサイトは、ウェブアーカイブ用フォーマットの国際規格でもあるWARC形式としてダウンロードすることができるほか、Internet ArchiveのWayback Machineに送信する機能も備えているようです。

SiteStory Web Archiveの実装方法

　以下で詳しく紹介されていますが、mod_sitestoryというApacheのモジュールを追加することで実装することができるようです。SiteStory専用のサーバーを用意する必要があるようでして、私自身はまだ試していません。

SiteStory Web Archive – SiteStory Web Archive Getting Started Guide

SiteStoryによってアーカイブされたコンテンツの利用

　サーバーに蓄積された過去のウェブサイトは、Mementoが考案したプロトコル”HTTP framework for time-based access to resource states“（過去のコンテンツにアクセスするためのHTTP拡張みたいなものでしょうか）を利用してアクセスをします。現時点では、このMementoプロトコルを実装しているブラウザなんてありませんので、Mementoが公開するFirefoxのプラグインをインストールしてMementoプロトコルを使えるにしなければなりません。

MementoFox :: Add-ons for Firefox

SiteStoryのデモ

　SiteStory Web Archiveを実装しているウェブサイトがどれだけあるのかよくわかりませんが（おそらくほとんどないでしょうぁ・・・）、SiteStory Web Archiveでアーカイブされたデモコンテンツが公開されています。

SiteStory Web Archive – LANL Hello Archive example

　
　先に紹介したFirefoxのプラグインをインストールして以下のURLをアクセスしてみてください。2009年9月20日まで遡ることができるようです。

http://lanlsource.lanl.gov/pics/picoftheday.png

　
　日付とその日のBBCのウェブサイトのトップページを写したおじさま（ロス・アラモス研究所のHerbert Van de Sompel氏）の写真を見ることができます。写真は毎日更新されているようですね。うーん、これはこれですごいことだ。Herbert氏の経歴を見ると、OAI-PMHの仕様策定に絡んでいたり、現在だとOpen Annotationに絡んでいたりと、いろいろなところでこの方の実績や取りんでいるプロジェクトに出くわしているみたいで、「はぁ、凄い方だ」と思わず溜息。

例

SiteStoryによるウェブアーカイブのしくみ

SiteStory Web Archiveの実装方法

SiteStoryによってアーカイブされたコンテンツの利用

SiteStoryのデモ

例

関連エントリ