ウェブアーカイブの利活用とMementoを扱ったAhmed AlSum氏の博士論文発表会スライド

 久しぶりに今回はウェブアーカイブネタ。 Old Dominion University、Web Science and Digital Libraries Research GroupのAhmed AlSum氏が博士論文の発表会で用いたスライドが公開されています。Ahmed AlSum氏のことはよくしらないのですが、スライドがMementoを中心にウェブアーカイブの利活用を中心にまとめて面白かったです。
 
 ウェブアーカイブというよりも、時間軸でウェブをどのように利用させるかと言ったほうが、伝わる方には伝わるかも知れませんね。それにもMemento台湾大学も参加していたことは知りませんでした。アジアでは最初ではないですかね。

 
 

関連エントリ

Internet ArchiveのWayback Machineが大幅にサービスをリニューアル

先のエントリでアプリケーションのWaybackの話を紹介しましたが、今回はInternet Archiveが提供するWayback Machineというサービスの話です。Internet ArchiveのWayback Machineが10月25日リニューアルし、サービス・機能を大幅に強化しました。
00
Internet Archive: Wayback Machine

 リニューアル前の画面も当然ですが、Internet Archiveに保存されていますので、見ることができます。
11
Internet Archive: Wayback Machine 2013/10/21

リニューアルの詳細

  リニューアルの詳細は、以下のIAブログで紹介されています。「この世界(インターネット)は俺たちに任せろ」といわんばかりのInternet Archiveの「アーカイブ」に対する強い自負が感じられるエントリです。

 まとめると以下になります。

1.アーカイブされたウェブページをより早く公開

 アーカイブされたウェブページをクローラーで収集されてから1時間強で利用できるようになりました。これまでは利用できるまで数ヶ月かかっていたようですので、すごい時間短縮です。


収集したことを知らせるとともに、利用できるようになるまで数ヶ月かかることを知らせる従来のメッセージ
from
Internet Archive“Wayback Machine” | 世界のウェブアーカイブ|国立国会図書館インターネット資料収集保存事業より

2.インスタント・オンデマンド・アーカイブサービス

 と、勝手ながら呼ばせていただきましたが、Internet Archiveはユーザーのリクエストに応じてウェブサイトにクローラーを走らせ、ウェブページを保存するサービスを開始しました。
 アーカイブされてから提供されるまで1で紹介したような機能強化がされても1時間強はかかりますが、リンクを貼るためのWayback Machineにおけるウェブページの固定URLはユーザーがアーカイブをリクエストをしたタイミングで知らせてくれます。
 ウェブページを引用や参考文献に使いたい研究者やWikipediaの執筆者、法律家、学生などだれでも利用することができます。1のクローラーによる収集からアーカイブされたウェブページの公開に至るまでの時間短縮とあわせて考えるとこれは凄い機能です。
 簡単に流れを紹介しますと
 トップページに以下のようなフォームが用意されています。Internet Archiveに保存を依頼したいウェブページのURLを入力します。
Save Page Nowというフォーム
そうすると、すぐにIAのクローラーが走り、ウェブページのアーカイブが開始します。
アーカイブ処理中をしらせる画面
無事、アーカイブ処理が終了するとその固定URLが表示されます。
アーカイブ処理が終了したことをしらせ、その固定URLが表示される
 上のURLでアーカイブされたウェブページが利用できるようになるのは、1時間ほど先ですが、固定URLはすぐに取得できます。論文やなにかの執筆などに挙げる参考文献のために安定したURLを提供する機能として考えれば、アカデミズムへの貢献という観点からみてもウェブアーカイブの面目躍如たる機能だと思います。

3.Wayback Availability JSON API

 Wayback Machineに保存されているかどうかをプログラムによって確認できるWayback Availability JSON APIが公開されました(おそらく新規公開)。

4.Web上からリンク切れをなくす取り組み

 Internet Archiveがアーカイブしたウェブサイトをオリジナルのウェブサイト管理者に活用してもらうことで、リンク切れをなくす取り組みです。

WordPress.com及びセルフホストでWordpressで構築されたウェブサイト

 WordPress.comで公開されているブログと、Wordpressによりセルフホストで構築されたサイト(えっ・・汗)、そして、それらからリンクが貼られている外部のウェブページを含めて、Internet Archiveはクローラーを走らせて保存しているそうです(1日URL300万件分が保存されているとのこと)。
 リンク切れがあった場合にInternet Archiveが保存したウェブサイトのURLに自動的に変更するWordpressのプラグイン”Broken Link Checker”をInternet Archiveが作成し、提供しています。

Wikipedia.org

 Wikipedia.orgの全ての更新記事や新規記事に掲載されている外部リンク先(outlinks)のウェブサイトにクローラーを走らせ、Wikipedia.orgからリンクを貼られているウェブサイトを保存しているそうです(1日URL500万件分が保存されているとのこと)。
 Wikipediaから貼られた外部のウェブサイトが仮に消失してしまい、リンク切れになったウェブサイトは自動的にInternet Archiveが保存したウェブサイトのURLに自動的に変更されるような仕組みについて、Internet ArchiveとWikipediaで協議しているとのことです。

全てのウェブマスター向け

 全てのウェブマスターに以下の数行を404ページに追加することを呼びかけています。


<div id="wb404"/>

<script src="https://archive.org/web/wb404.js"> </script>

 404ページに上の2行のタグを追加しておくと、あるURLのページが消失し、404画面が表示される際に仮にそのURLの過去のウェブサイトがInternet Archiveが保存されていた場合は以下のような案内を404画面に表示して、Wayback Machineに誘導してくれます。

その例が以下です。

 詳しくはIAブログの以下をご参照ください。

 Internet Arhiveのブリュースター・ケール氏、Internet Archiveへのアクセスの集中がすごいために、アクセスを散らすためにSiteless WebsiteなどというP2P方式のコンテンツ提供方式を考えたりしているらしいのですが、そんなInternet Achiveがアクセスを減らす方向ではなく、よりアクセスを集めそうなサービスを展開する、その姿勢はすげーと思います。

関連エントリ

Internet ArchiveがHistorical Software Archiveを公開。あのソフトウェアをブラウザ上で実行できるぞ

  Internet Archiveが10月25日にHistorical Software Archive(Historical Software Collection)を公開しました。Internet Archiveはすでに過去のソフトウェアをアーカイブしたSoftware Collection を公開していますが、Historical Software Archiveはその中から著名で歴史的に重要なものを集めたコレクションだそうです。

 Historical Software Archiveと他のソフトウェアコレクションとの違いは、Historical Software Archiveのほうはソフトウェアをブラウザ上で実行できるということでしょうか。JSMESSというJavaScriptベースのエミューターが使用されているそうです。JSMESSが対応している環境が多くてすごい・・・。

 公開されているソフトウェアは28とまだ多くはなく、気のせいか、いや、まちがいなく、ゲームが多くを占めているような・・・。その多くないタイトルの中にあのカラテカがあったりして、ブラウザで遊べたりとか・・・。