British Libraryのウェブアーカイビングプロジェクト UK Web Archiveが6月12日より英国のウェブサイトを網羅的に収集しています。現在進行形で収集中。
By the way, we really do have a button, this is it: pic.twitter.com/1YkXiBjA8A
— UK Web Archive (@UKWebArchive) June 12, 2014
British Libraryは2013年から法に基づいて英国のウェブサイトの網羅的な収集(バルク収集)を開始しました。今回は2回目のバルク収集です。
収集開始当日である2014年6月12日に掲載されたUK Web Archiveブログのエントリによると、前回の2013年は19億のURL、総容量で30.84TBのウェブリソース(ウェブサイトやイメージファイル、ドキュメントファイルなど)を集めたそうです。収集に70日かかったとか。今回は”.uk”ドメインと英国にホストがあると分かっている”.com”、 “.net”ドメイン “.info”ドメインなどを持つウェブサイトが収集の対象になるそうです。今年はどれくらい集まるか、その予想をハッシュタグ#ukwebcrawl2014で投稿するよう、Twitter市民に呼びかけたりもしています。
現在の状況はUK Web ArchiveのTwitterのアカウント@UKWebArchiveで報告されています。2014年7月7日の報告では、3週間を経過したところで 8.4TBを収集したようです。
Week 3 (of at least 10) of #UKWebCrawl2014 and we are up to 8.4TB of data captured!
— UK Web Archive (@UKWebArchive) July 7, 2014
ハッシュタグは上にも出てきている#ukwebcrawl2014です。しばらくはこれで楽しめそうです。