先のエントリで、MementoによるInternet ArchiveとUK Archiveの統合検索について紹介しました。今回はそのMementoのサーバーサイド分散型ウェブアーカイブ “SiteStory Web Archive”を簡単ですが、紹介します。ちなみにMemento自身はこれを”Transactional archiving”と呼んでいるようです。
なお、「サーバーサイド分散型ウェブアーカイブ」とは、ウェブサイトを置いているサーバー自身にウェブサイトを保存する(セルフアーカイブする)仕組みを指しており、Internet Archiveのような集約型ウェブアーカイブと対照して、便宜上この場で使わせていただいている言葉です(先のエントリでも便宜上使用しましたが)
目次
SiteStoryによるウェブアーカイブのしくみ
紹介する、といいつつも、カレントアウェアネスの以下の記事の「ユーザがアクセスした際にそのコンテンツを保存するという“Transactional”なウェブアーカイブ」という紹介でほぼ説明し尽くされています。
ウェブサイトのユーザーからアクセスされたタイミングでその時点のコンテンツがサーバー(Apache Web Content Server)内に保存されます。プロキシのキャッシュを永続化するようなしくみでしょうか。アクセスが多いコンテンツほど保存され、また、高い頻度で保存されます。
ウェブサーバーに保存されたウェブサイトは、ウェブアーカイブ用フォーマットの国際規格でもあるWARC形式としてダウンロードすることができるほか、Internet ArchiveのWayback Machineに送信する機能も備えているようです。
SiteStory Web Archiveの実装方法
以下で詳しく紹介されていますが、mod_sitestoryというApacheのモジュールを追加することで実装することができるようです。SiteStory専用のサーバーを用意する必要があるようでして、私自身はまだ試していません。
SiteStoryによってアーカイブされたコンテンツの利用
サーバーに蓄積された過去のウェブサイトは、Mementoが考案したプロトコル”HTTP framework for time-based access to resource states“(過去のコンテンツにアクセスするためのHTTP拡張みたいなものでしょうか)を利用してアクセスをします。現時点では、このMementoプロトコルを実装しているブラウザなんてありませんので、Mementoが公開するFirefoxのプラグインをインストールしてMementoプロトコルを使えるにしなければなりません。
SiteStoryのデモ
SiteStory Web Archiveを実装しているウェブサイトがどれだけあるのかよくわかりませんが(おそらくほとんどないでしょうぁ・・・)、SiteStory Web Archiveでアーカイブされたデモコンテンツが公開されています。
先に紹介したFirefoxのプラグインをインストールして以下のURLをアクセスしてみてください。2009年9月20日まで遡ることができるようです。
日付とその日のBBCのウェブサイトのトップページを写したおじさま(ロス・アラモス研究所のHerbert Van de Sompel氏)の写真を見ることができます。写真は毎日更新されているようですね。うーん、これはこれですごいことだ。Herbert氏の経歴を見ると、OAI-PMHの仕様策定に絡んでいたり、現在だとOpen Annotationに絡んでいたりと、いろいろなところでこの方の実績や取りんでいるプロジェクトに出くわしているみたいで、「はぁ、凄い方だ」と思わず溜息。
例