Internet ArchiveのWayback Machineが大幅にサービスをリニューアル

先のエントリでアプリケーションのWaybackの話を紹介しましたが、今回はInternet Archiveが提供するWayback Machineというサービスの話です。Internet ArchiveのWayback Machineが10月25日リニューアルし、サービス・機能を大幅に強化しました。
00
Internet Archive: Wayback Machine

 リニューアル前の画面も当然ですが、Internet Archiveに保存されていますので、見ることができます。
11
Internet Archive: Wayback Machine 2013/10/21

リニューアルの詳細

  リニューアルの詳細は、以下のIAブログで紹介されています。「この世界(インターネット)は俺たちに任せろ」といわんばかりのInternet Archiveの「アーカイブ」に対する強い自負が感じられるエントリです。

 まとめると以下になります。

1.アーカイブされたウェブページをより早く公開

 アーカイブされたウェブページをクローラーで収集されてから1時間強で利用できるようになりました。これまでは利用できるまで数ヶ月かかっていたようですので、すごい時間短縮です。


収集したことを知らせるとともに、利用できるようになるまで数ヶ月かかることを知らせる従来のメッセージ
from
Internet Archive“Wayback Machine” | 世界のウェブアーカイブ|国立国会図書館インターネット資料収集保存事業より

2.インスタント・オンデマンド・アーカイブサービス

 と、勝手ながら呼ばせていただきましたが、Internet Archiveはユーザーのリクエストに応じてウェブサイトにクローラーを走らせ、ウェブページを保存するサービスを開始しました。
 アーカイブされてから提供されるまで1で紹介したような機能強化がされても1時間強はかかりますが、リンクを貼るためのWayback Machineにおけるウェブページの固定URLはユーザーがアーカイブをリクエストをしたタイミングで知らせてくれます。
 ウェブページを引用や参考文献に使いたい研究者やWikipediaの執筆者、法律家、学生などだれでも利用することができます。1のクローラーによる収集からアーカイブされたウェブページの公開に至るまでの時間短縮とあわせて考えるとこれは凄い機能です。
 簡単に流れを紹介しますと
 トップページに以下のようなフォームが用意されています。Internet Archiveに保存を依頼したいウェブページのURLを入力します。
Save Page Nowというフォーム
そうすると、すぐにIAのクローラーが走り、ウェブページのアーカイブが開始します。
アーカイブ処理中をしらせる画面
無事、アーカイブ処理が終了するとその固定URLが表示されます。
アーカイブ処理が終了したことをしらせ、その固定URLが表示される
 上のURLでアーカイブされたウェブページが利用できるようになるのは、1時間ほど先ですが、固定URLはすぐに取得できます。論文やなにかの執筆などに挙げる参考文献のために安定したURLを提供する機能として考えれば、アカデミズムへの貢献という観点からみてもウェブアーカイブの面目躍如たる機能だと思います。

3.Wayback Availability JSON API

 Wayback Machineに保存されているかどうかをプログラムによって確認できるWayback Availability JSON APIが公開されました(おそらく新規公開)。

4.Web上からリンク切れをなくす取り組み

 Internet Archiveがアーカイブしたウェブサイトをオリジナルのウェブサイト管理者に活用してもらうことで、リンク切れをなくす取り組みです。

WordPress.com及びセルフホストでWordpressで構築されたウェブサイト

 WordPress.comで公開されているブログと、Wordpressによりセルフホストで構築されたサイト(えっ・・汗)、そして、それらからリンクが貼られている外部のウェブページを含めて、Internet Archiveはクローラーを走らせて保存しているそうです(1日URL300万件分が保存されているとのこと)。
 リンク切れがあった場合にInternet Archiveが保存したウェブサイトのURLに自動的に変更するWordpressのプラグイン”Broken Link Checker”をInternet Archiveが作成し、提供しています。

Wikipedia.org

 Wikipedia.orgの全ての更新記事や新規記事に掲載されている外部リンク先(outlinks)のウェブサイトにクローラーを走らせ、Wikipedia.orgからリンクを貼られているウェブサイトを保存しているそうです(1日URL500万件分が保存されているとのこと)。
 Wikipediaから貼られた外部のウェブサイトが仮に消失してしまい、リンク切れになったウェブサイトは自動的にInternet Archiveが保存したウェブサイトのURLに自動的に変更されるような仕組みについて、Internet ArchiveとWikipediaで協議しているとのことです。

全てのウェブマスター向け

 全てのウェブマスターに以下の数行を404ページに追加することを呼びかけています。


<div id="wb404"/>

<script src="https://archive.org/web/wb404.js"> </script>

 404ページに上の2行のタグを追加しておくと、あるURLのページが消失し、404画面が表示される際に仮にそのURLの過去のウェブサイトがInternet Archiveが保存されていた場合は以下のような案内を404画面に表示して、Wayback Machineに誘導してくれます。

その例が以下です。

 詳しくはIAブログの以下をご参照ください。

 Internet Arhiveのブリュースター・ケール氏、Internet Archiveへのアクセスの集中がすごいために、アクセスを散らすためにSiteless WebsiteなどというP2P方式のコンテンツ提供方式を考えたりしているらしいのですが、そんなInternet Achiveがアクセスを減らす方向ではなく、よりアクセスを集めそうなサービスを展開する、その姿勢はすげーと思います。

関連エントリ