British Libraryが現在、英国のウェブサイトを網羅的に収集中

British Libraryのウェブアーカイビングプロジェクト UK Web Archiveが6月12日より英国のウェブサイトを網羅的に収集しています。現在進行形で収集中。


 British Libraryは2013年から法に基づいて英国のウェブサイトの網羅的な収集(バルク収集)を開始しました。今回は2回目のバルク収集です。

 収集開始当日である2014年6月12日に掲載されたUK Web Archiveブログのエントリによると、前回の2013年は19億のURL、総容量で30.84TBのウェブリソース(ウェブサイトやイメージファイル、ドキュメントファイルなど)を集めたそうです。収集に70日かかったとか。今回は”.uk”ドメインと英国にホストがあると分かっている”.com”、 “.net”ドメイン “.info”ドメインなどを持つウェブサイトが収集の対象になるそうです。今年はどれくらい集まるか、その予想をハッシュタグ#ukwebcrawl2014で投稿するよう、Twitter市民に呼びかけたりもしています。

 現在の状況はUK Web ArchiveのTwitterのアカウント@UKWebArchiveで報告されています。2014年7月7日の報告では、3週間を経過したところで 8.4TBを収集したようです。


ハッシュタグは上にも出てきている#ukwebcrawl2014です。しばらくはこれで楽しめそうです。