Web Archive | kzakza

　以前、以下のようなエントリを書きました。

Web情報を保存するとは何か

　要点をまとめると
　Webにおけるユーザーの行動の結果として、Webを構成するリソース、またはその断片的な一部は、ユーザーにより断片化され、大量に複製される形で残っていくのではないか。
ということでした。言い換えると、画像の転載やテキストの一部のコピペなどより（しかも、それが転載と複製を繰り返されることで）、一部とはいえ、Web上にあった情報は残っていくものもあるんじゃないかということでした（複製にまさる保存手段なしということで）。オリジナルが失われても、転載されたものが一部残っていたおかげで辛うじて当時のオリジナルの情報を部分的にでも再現できるなんてあたりは、紙の史資料と同じですね。
　そして、結果としてそういう形でしか残らなかった情報を将来の人間は活用するしかない場面が出てくるのはないか。ならば、自然に情報が残っていくにまかせるのではなく、少しでもよい方向にもっていくことはできないだろうかと、一応業界人なので考えたりします。
　　
　いろいろとあるのでしょうね。少しでも残りやすくするとか、なるべく理想に近い残り方をするようにするとか。
　　
　Internet Archiveなどが取り組んでいるようなウェブアーカイビングプロジェクト（参照:Wikipedia）で保存されているような理想的な形ではないとしても、結果として断片的な形で情報が残ることも折り込んで、どうすれば少しでも真正性を担保できるのか、将来の歴史家の負担を軽減できるのかということは図書館がいつか考えなければならないのでないかという気がしてきました。
　具体的に何をすればよいのでしょう。
　すぐに思いつくのが、将来にわたって真正性を担保できるようなメタ情報を少しでもリソースに残すことに貢献することでしょうか。
　リソースにメタデータが新規に付与され、それにメタ情報が追加・修正されるタイミングはざっと以下の２つあるかと思いますが、

リソースが作成されたタイミングで埋め込まれるメタデータ（例としは、Exifなど）
リソースが転載されたタイミングで新たなメタデータが埋め込まれる。

　１は例にもあげたようなExifなど、すでに結構あるかと思います。必要ならその仕様の改訂に意見して必要なメタ情報が残るようにする、ないフォーマットにはメタｰデータが付与されるように意見を出すとか。
　2はどれくらいあるのでしょうか。そもそもどうすればできるのかも分かりませんが、OSに依存することが結構多そうですね。しかし、どのような経路をたどって、そのリソースがその時代に残ったのかという情報が記録される仕組みが1ファイルレベルで欲しいところです。コピペされたテキストは1ファイルどころではないですが、今の時代に残ったテキストがどういう経路でコピペされ、どのように改変されていったかその差分情報がWikiのように残れば理想的です。そういう仕組みってどうすればできるんでしょうか。
　ところで、今回、真正性、真正性という言葉を多用してしまいましたが、この使い方でよいのかしら・・

　先日のクローズアップ現代で「忘れられる権利」を中心にWebのプライバシー問題が取り上げられていました。
・“忘れられる権利”はネット社会を変えるか？ – NHK クローズアップ現代
　Webとプライバシーの問題は個人的に興味があるところですので、近いうちにこのプログで少し書いてみるつもりですが、今回はそのクロ現の放送を観て考えさせられたWeb情報の長期的な保存の話を少しばかり。
　あの放送を観ながらプライバシーの問題をいろいろと考えさせられつつも、情報の長期保存という観点から以下の考えが頭をよぎりました。

善し悪しはともかく、大量に複製することがWeb情報の長期的な保存方法として最もfuture-proofではないか。
善意によるにしろ、悪意によるにしろ、その意図はともかく、ネットユーザーが関心を持ち、残そうと思われるWeb情報ほど大量に複製されてWeb上から消えにくくなる。つまり、情報が残りやすくなる。
複製されるにしても、ウェブサイトやウェブページをそのまま保存することはほとんどなく、ウェブサイトに掲載された１つの画像ファイルとか、ワンセンテンスのテキストなど情報の一断片が複製されていく。断片化され、複製を繰り返される情報は図書館業界が保存したいと考える「Web情報」とは違うのか。違うならその違いは何か。

　Internet Archiveや各国の国立図書館がウェブアーカイブプロジェクトを進めています。これらのプロジェクトの多くはウェブサイトやウェブページをなるべく公開された状態に近い形で保存しています。ウェブサイトに掲載された情報だけではなく、それを載せていた器（ウェブサイト）も保存しているわけです。
　そもそも論で、これはWeb情報に限らず、ですが、情報はそれを載せていた器も非常に重要な情報です。加えて公開者による事後的な変更が容易なWebの場合、信頼できる機関がWebサイトをそのまま保存して、その真正性を担保することも非常に重要になってきます。では、器（原ウェブサイト）から切り離され、複製を繰り返された断片的なWeb情報に価値はないかというとそうでもないと思うのです。
　理由は主に2つです。
　理由の1つは身も蓋もない話ですが、ほとんどの人が日常生活の中でWeb情報に歴史学者の史料批判に耐えうるほどの真正性を求めてがいないだろうということです。多くの場合はぱっと見て、「まあ、たぶんこれで問題ないかな」と感じさせる程度の確かさで満足することが多いのではないかと思うのです。探して自分が納得するものが見つかればそれでいい。
　もう1つは（これも身も蓋もないですが）、全く残らないよりは断片的でも残るほうがはるかにマシではないかということです。史料批判に耐えうる形で保存されることは重要です。Web情報がある時点でその形で公開されていたということが重要になってくるので、可能な限りWeb情報は公開されたそのままの状態で保存することは望ましい。複製を繰り返し、もはや原情報の有り様が全くわからなくなった状態ではその情報の真正性は担保されなくなってしまいます。とはいえです。転載を繰り返えされた断片的な情報しか残っていなかった場合はどうなるのでしょうか。例えば、すで閉鎖されたある政治家のブログのあるエントリの一部分が転載を繰り返し、2chのまとめサイトにのみ残っている。もしくは、ある芸術家の顔写真、もはやそれを掲載していた新聞記事はとうの昔に削除されてしまったが、かろうじてTumblrでクリッピングされていたので残っている。そんな場合です。その断片的なWeb情報を真正性に問題があることを前提としてやはり使用せざるをえないのではないかと思うのです。Web情報はウェブアーカイブによって器（原ウェブサイト）ごと残されていくものと、器（原ウェブサイト）を失って複製を繰り返された断片化したものとに分かれていくのだと思いますが、未来の歴史学者が後者に頼らざるを得ないケースもしばしば出てくるかもしれません。断片化されたWeb情報を史料として扱うための研究手法や経験が歴史学に蓄積されていくようになるのかもしれませんね※1。
　特定の人間、特定の機関が集中的に管理するのではない。個々のネットユーザーが関心を持ったWeb上の情報が結果として大量に複製されて残りやすくなる。Web上の情報が細分化されて分散的に保存されていく仕組みになっている。各機関が進めるウェブアーカイブプロジェクトも、器（原ウェブサイト）の保存も重要だと考える人間、機関が器ごとWeb情報を保存をしているわけですが、これも上に挙げた２に当てはめて考えると、Webというシステムが持つ情報を残そうという志向に結果として包含されているように思えます。どちらにせよ、ウェブアーカイブプロジェクトによって保存されるWeb情報とWebのその有り様から結果として残っている断片的なWeb情報は相対立するものではなく、大きな海の中で補完しあう関係にあるのでしょう。
　Webが誕生してまだ20年と少し、ウェブアーカイブプロジェクトも15年ちょっとの歴史しかありません。紙の上に載せられた情報が歩んだ歴史的スパンを考えると、Web情報の長期保存について最適解を出せる段階ではまだまだないでしょうが、Webというシステムは情報の保存という観点から考えても割と柔軟でしなやかな仕組みを備えているのかもしれません。
　

※1

と、書いたものの、今の時代と時代的にあまりに近すぎるので当分の間は歴史学の仕事でなく、他の分野の仕事になるかもしれないという気もします。

カテゴリー: Web Archive

「Web情報を保存するとは何か」の続き-Web情報の保存についての個人的で簡潔な妄想-

Web情報を保存するとは何か

※1