先のエントリでアプリケーションのWaybackの話を紹介しましたが、今回はInternet Archiveが提供するWayback Machineというサービスの話です。Internet ArchiveのWayback Machineが10月25日リニューアルし、サービス・機能を大幅に強化しました。
Internet Archive: Wayback Machine
リニューアル前の画面も当然ですが、Internet Archiveに保存されていますので、見ることができます。
Internet Archive: Wayback Machine 2013/10/21
目次
リニューアルの詳細
リニューアルの詳細は、以下のIAブログで紹介されています。「この世界(インターネット)は俺たちに任せろ」といわんばかりのInternet Archiveの「アーカイブ」に対する強い自負が感じられるエントリです。
まとめると以下になります。
1.アーカイブされたウェブページをより早く公開
アーカイブされたウェブページをクローラーで収集されてから1時間強で利用できるようになりました。これまでは利用できるまで数ヶ月かかっていたようですので、すごい時間短縮です。
2.インスタント・オンデマンド・アーカイブサービス
と、勝手ながら呼ばせていただきましたが、Internet Archiveはユーザーのリクエストに応じてウェブサイトにクローラーを走らせ、ウェブページを保存するサービスを開始しました。
アーカイブされてから提供されるまで1で紹介したような機能強化がされても1時間強はかかりますが、リンクを貼るためのWayback Machineにおけるウェブページの固定URLはユーザーがアーカイブをリクエストをしたタイミングで知らせてくれます。
ウェブページを引用や参考文献に使いたい研究者やWikipediaの執筆者、法律家、学生などだれでも利用することができます。1のクローラーによる収集からアーカイブされたウェブページの公開に至るまでの時間短縮とあわせて考えるとこれは凄い機能です。
簡単に流れを紹介しますと
トップページに以下のようなフォームが用意されています。Internet Archiveに保存を依頼したいウェブページのURLを入力します。
そうすると、すぐにIAのクローラーが走り、ウェブページのアーカイブが開始します。
無事、アーカイブ処理が終了するとその固定URLが表示されます。
上のURLでアーカイブされたウェブページが利用できるようになるのは、1時間ほど先ですが、固定URLはすぐに取得できます。論文やなにかの執筆などに挙げる参考文献のために安定したURLを提供する機能として考えれば、アカデミズムへの貢献という観点からみてもウェブアーカイブの面目躍如たる機能だと思います。
3.Wayback Availability JSON API
Wayback Machineに保存されているかどうかをプログラムによって確認できるWayback Availability JSON APIが公開されました(おそらく新規公開)。
4.Web上からリンク切れをなくす取り組み
Internet Archiveがアーカイブしたウェブサイトをオリジナルのウェブサイト管理者に活用してもらうことで、リンク切れをなくす取り組みです。
WordPress.com及びセルフホストでWordpressで構築されたウェブサイト
WordPress.comで公開されているブログと、Wordpressによりセルフホストで構築されたサイト(えっ・・汗)、そして、それらからリンクが貼られている外部のウェブページを含めて、Internet Archiveはクローラーを走らせて保存しているそうです(1日URL300万件分が保存されているとのこと)。
リンク切れがあった場合にInternet Archiveが保存したウェブサイトのURLに自動的に変更するWordpressのプラグイン”Broken Link Checker”をInternet Archiveが作成し、提供しています。
Wikipedia.org
Wikipedia.orgの全ての更新記事や新規記事に掲載されている外部リンク先(outlinks)のウェブサイトにクローラーを走らせ、Wikipedia.orgからリンクを貼られているウェブサイトを保存しているそうです(1日URL500万件分が保存されているとのこと)。
Wikipediaから貼られた外部のウェブサイトが仮に消失してしまい、リンク切れになったウェブサイトは自動的にInternet Archiveが保存したウェブサイトのURLに自動的に変更されるような仕組みについて、Internet ArchiveとWikipediaで協議しているとのことです。
全てのウェブマスター向け
全てのウェブマスターに以下の数行を404ページに追加することを呼びかけています。
<div id="wb404"/> <script src="https://archive.org/web/wb404.js"> </script>
404ページに上の2行のタグを追加しておくと、あるURLのページが消失し、404画面が表示される際に仮にそのURLの過去のウェブサイトがInternet Archiveが保存されていた場合は以下のような案内を404画面に表示して、Wayback Machineに誘導してくれます。
その例が以下です。
詳しくはIAブログの以下をご参照ください。
Internet Arhiveのブリュースター・ケール氏、Internet Archiveへのアクセスの集中がすごいために、アクセスを散らすためにSiteless WebsiteなどというP2P方式のコンテンツ提供方式を考えたりしているらしいのですが、そんなInternet Achiveがアクセスを減らす方向ではなく、よりアクセスを集めそうなサービスを展開する、その姿勢はすげーと思います。
関連エントリ
- Internet ArchiveがHistorical Software Archiveを公開。あのソフトウェアをブラウザ上で実行できるぞ
- Open Wayback Project – Waybackをオープンソース化して開発をリランチ
- Open Annotationとウェブアーカイブのちょっとした関係
- 様々なレイヤーのArchived website の統合インターフェイスを志向するMementoプロトコル
- Mementoのサーバーサイド分散型ウェブアーカイブ “SiteStory Web Archive”
- Personal Web Archivingでソーシャルメディアのウェブアーカイブを試みるMat Kelly氏
- Internet Archiveのブリュースター・ケール氏が問うSiteless Websiteの可能性
- UK Web ArchiveがMementoに対応