7月 12

前のブログを閉鎖しまして、代わりに404からInternet ArchiveのWayback Machineに飛べるようにしました

 このブログと並行して公開していた”e-chuban blog”(http://wp.kzakza.com/)というブログを先日閉鎖しました。中国語圏の出版情報や図書館情報を集めていたブログでした。ここ数年はこの分野への私の関心が薄れてしまったせいもあって、更新頻度も激減し、最後の記事を掲載してから1年以上経過してしまいました。掲載している情報もかなり古くなってしまって、鮮度も落ちてしまった。もういいかなと。更新を停止してもブログをそのまま残しておくことも考えたのですが、更新しないブログにログインしてWordpressのアップデート等のメンテナンスをし続けるのも、もはや面倒。もういいかなと。

 そういうわけで、ブログを先日閉鎖しました。

 代わりにというわけではないのですが、e-chuban blog”(http://wp.kzakza.com/以下)にアクセスすると404のページからInternet ArchiveのWayback Machineに飛べるようにしてみました(ちょっとやってみたかった)。Wayback Machineに該当ページが保存されていれば、以下のようなリンクが表示され、収集されたページ誘導されるはずです。保存されていなければ表示されません。

Would you like to see an archived version of this page in the Internet Archive's Wayback Machine?

 自分のブログの全エントリを積極的にInternet Archiveに永久保存してほしいとはとても思えないので、保存依頼はとくせず、Internet Archiveに保存されるにまかせました。印象としては、保存されていればラッキーと思える程度という感じです。個人のブログだとそんなものですかね。

 これについてやったことは、404のページに以下の2行を追加したぐらいです。

<div id="wb404"/>
<script src="https://archive.org/web/wb404.js"> </script>

 
 この404については、以下を参照してください。

7月 07

British Libraryが現在、英国のウェブサイトを網羅的に収集中

British Libraryのウェブアーカイビングプロジェクト UK Web Archiveが6月12日より英国のウェブサイトを網羅的に収集しています。現在進行形で収集中。

 British Libraryは2013年から法に基づいて英国のウェブサイトの網羅的な収集(バルク収集)を開始しました。今回は2回目のバルク収集です。

 収集開始当日である2014年6月12日に掲載されたUK Web Archiveブログのエントリによると、前回の2013年は19億のURL、総容量で30.84TBのウェブリソース(ウェブサイトやイメージファイル、ドキュメントファイルなど)を集めたそうです。収集に70日かかったとか。今回は”.uk”ドメインと英国にホストがあると分かっている”.com”、 “.net”ドメイン “.info”ドメインなどを持つウェブサイトが収集の対象になるそうです。今年はどれくらい集まるか、その予想をハッシュタグ#ukwebcrawl2014で投稿するよう、Twitter市民に呼びかけたりもしています。

 現在の状況はUK Web ArchiveのTwitterのアカウント@UKWebArchiveで報告されています。2014年7月7日の報告では、3週間を経過したところで 8.4TBを収集したようです。

ハッシュタグは上にも出てきている#ukwebcrawl2014です。しばらくはこれで楽しめそうです。

5月 29

IIPC総会 2014のプレゼン資料が公開されている

ワークショップを含めると、5月19日から5月23日までフランスで行われていたIIPC総会 2014のプレゼン資料が以下で公開されています。

 ちなみにIIPCはウェブアーカイブ関係機関で構成される国際コンソーシアムです。Internet Archiveやウェブアーカイビングプロジェクトを進めている各国の国立図書館、研究機関がメンバーになっています。日本では国立国会図書館がメンバーになっています。IIPCについては、以下が日本語で詳しく紹介しています。

 今回の総会では、日本からは国立国語研究所の浅原先生達がウェブコーパスについて発表されていますね。

個人的にはロスアラモス研究所のMartin Klein氏のHiberlinkのプレゼンが興味深いと思いました。これはHiberlinkそのものに対してというよりは、いつの間にか私が追っかけをしてしまっている同研究所のHerbert Van de Sompel氏繋がりではあるのですが。