British Libraryが現在、英国のウェブサイトを網羅的に収集中

British Libraryのウェブアｰカイビングプロジェクト UK Web Archiveが6月12日より英国のウェブサイトを網羅的に収集しています。現在進行形で収集中。

By the way, we really do have a button, this is it: pic.twitter.com/1YkXiBjA8A

— UK Web Archive (@UKWebArchive) June 12, 2014

　British Libraryは2013年から法に基づいて英国のウェブサイトの網羅的な収集（バルク収集）を開始しました。今回は2回目のバルク収集です。

UK Web Archive | 世界のウェブアーカイブ｜国立国会図書館インターネット資料収集保存事業

　収集開始当日である2014年6月12日に掲載されたUK Web Archiveブログのエントリによると、前回の2013年は19億のURL、総容量で30.84TBのウェブリソース（ウェブサイトやイメージファイル、ドキュメントファイルなど）を集めたそうです。収集に70日かかったとか。今回は”.uk”ドメインと英国にホストがあると分かっている”.com”、 “.net”ドメイン “.info”ドメインなどを持つウェブサイトが収集の対象になるそうです。今年はどれくらい集まるか、その予想をハッシュタグ#ukwebcrawl2014で投稿するよう、Twitter市民に呼びかけたりもしています。

How big is the UK web? – UK Web Archive blog

　現在の状況はUK Web ArchiveのTwitterのアカウント@UKWebArchiveで報告されています。2014年7月7日の報告では、3週間を経過したところで 8.4TBを収集したようです。

Week 3 (of at least 10) of #UKWebCrawl2014 and we are up to 8.4TB of data captured!

— UK Web Archive (@UKWebArchive) July 7, 2014

ハッシュタグは上にも出てきている#ukwebcrawl2014です。しばらくはこれで楽しめそうです。