Web情報を保存するとは何かの続きの続き

 「Web情報を保存するとは何か」と「「Web情報を保存するとは何か」の続き-Web情報の保存についての個人的で簡潔な妄想-」の続きです。
 私はWebの仕組みとしてWeb情報が残るようにできないかとよく考えたりします。現時点で思いつくのは以下の3つの方法です。

  • クライアント側のストレージ(キャッシュ?)に残るようにする(クライアントサイド分散型ウェブアーカイブ)
  • 「Web情報の保存」の定義をもう少し広く拡大する(「Web情報」の拡大)
  • ウェブサイトを置いているサーバーに差分情報として残るようにする(サーバーサイド分散型ウェブアーカイブ)

 

クライアントサイド分散型ウェブアーカイブ

 1つ1つは微量でも蓄積してくと無尽蔵といえるクライアントサイドのストレージを活用する方法です。キャッシュにたまるものを永続的に保存出来るならば、アクセスの多いウェブサイトほど高頻度のアーカイビングが可能になるという点も面白いと思います。そして、それらをP2Pで相互にアクセス可能にして利用させると。
 実はInternet Archiveのブリュースター・ケール氏が言うSiteless Websiteが結構近いのかなと思ったりします。目的は同じではないかもしれないけど、結果として同じところにたどり着きそう。

 2008年の電子情報通信学会ソサイエティ大会で発表された以下の論文は私が思っていたものに結構近いものです。

 
 同じことを考えている人は他にもいるかもしれませんね。

「Web情報の保存」の定義の拡大

 過去に以下のエントリで書いた通り。多くは語りません。

 

サーバーサイド分散型ウェブアーカイブ

 ウェブサイトを置いているウェブサーバーにGitやCSVのようなバージョン管理システムなどを導入して更新前の情報もバージョン管理という形で保存する方法です。ある人から全ウェブサイトのWiki化ということもかもと言われたことがありますが、確かにそのようなイメージかもしれません。また、あるオレンジ系図書館員からgithub×web archivingと言われたこともありますが、Github Pagesが全ウェブサイトに広がればまさにそのままのイメージです。
 なお、バージョン管理システムの導入とは少し異なるのですが、サーバーサイド分散型ウェブアーカイブを志向しているものとして、MementoのSiteStoryがあります。プロキシのキャッシュを永続化するようなイメージのようです。

※2013/3/11追記
 SiteStoryについて、以下のエントリで紹介しました。

非公開型のサーバーサイド分散型ウェブアーカイブ

 これまでは保存されたWeb情報を第三者に公開することを前提にしてきましたが、ここからは第三者には公開されないアーカイブされたWeb情報はどのように考えたらよいのかというお話です。
 例えば、ブログのみならず、ウェブサイト構築のCMSとして活用されているWordpressにはエントリを更新しても更新前のエントリを保存する機能をデフォルトで備えています(以下)。
スクリーンショット 2013-03-06 0.35.16
 最近の他のCMSでも似たような機能をそなえてるだろうと思います。
  ウェブサイトをホスティングできるオンラインストレージサービスであるDropboxとGoogle Driveには期間限定ではあるものの、バージョン管理の機能を備えています。保存期間がいずれ無期限になる日がくるかもしれません。

 
 ウェブアーカイビングに対する意識はなくても、利便性への追求からからバージョン管理機能の導入が今後増えるのではないかと思います。その結果として、残るWeb情報も増えてきます。この機能はウェブサイト管理者のためのものであり、第三者が過去のWeb情報にアクセスするものではありません。
 しかし、第三者に対しては非公開でも過去のウェブ情報が保存されている。これに意味はないのでしょうか。
 ある先生から図書館の特徴として資料を公開を前提に考えているというお話を伺ったことがあり(少し前なので記憶がややあやふやです)、博物館やアーカイブスがウェブアーカイビングを行ったら、保存と公開を切り離して考えていたのかもしれないと思ったことがありました。その時の疑問とこの「非公開型ウェブアーカイブ」の意味に対する疑問がリンクしたため、今回、このエントリを書いてみました。
 最もInternet Archiveは非営利団体であり、UK Archivesなど図書館以外の機関がウェブアーカイビングに取り組んでいますので、この疑問自体にあまり意味はないかもしれません。ただ、保存と第三者に対する公開を切り離せば「セルフウェブアーカイビング」の範囲も拡げて考えることができるかもしれません。
 先のエントリで紹介したMat Kelly氏の提示する以下の図を拝借しますが、ここで提示されてようにウェブコンテンツを様々ないろいろなレイヤーに分けて考えて、いろいろな方法で方法で保存で試みてもよいのではないかと思います。Mat Kelly氏が提案するようにPersonal Web Archivingによって保存されるようにするのも1つの方法だと思いますし、様々な団体や個人の日常の行いの結果として自然とウェブ情報が残るようようになるというもの1つの方法ではないかと考える次第です。
Heritrxのようなクローラーでは収集することができないが、WARCで保存することは技術的に可能なfacebook等のウェブサイト、これをPersonal Web Archivingという手法で保存する
from WARCreate and Future Stewardship: An interview with Mat Kelly | The Signal: Digital Preservation

Google Chrome がWebに音声認識機能を埋め込めるWeb Speech API に多言語で対応。WebへのTTS機能埋め込みも可能?

 Google Chromeが安定版のver. 25でWebアプリに音声認識機能を埋め込めるWeb Speech APIに対応しました。しかも、日本語を含む多言語対応です。音声でウェブアプリを操作するといったことが可能になるようです。
 Googleの中の人による紹介動画が公開されています。 

 Googleがデモサイトを公開していますので、音声認識の精度を実際に試すことが可能です。

Web Speech APIの仕様には、このAPIのユースケースとして以下が挙げられています。Web Speech APIはWebの音声入力(speech-input)と自動音声読み上げ(Text-To-Speech)の制御をJavaScriptによって実現することを目的としているようですが、自動音声読み上げ(Text-To-Speech)に該当するものがない・・・?

  • Voice Web Search
  • Speech Command Interface
  • Domain Specific Grammars Contingent on Earlier Inputs
  • Continuous Recognition of Open Dialog
  • Domain Specific Grammars Filling Multiple Input Fields
  • Speech UI present when no visible UI need be present
  • Voice Activity Detection
  • Temporal Structure of Synthesis to Provide Visual Feedback
  • Hello World
  • Speech Translation
  • Speech Enabled Email Client
  • Dialog Systems
  • Multimodal Interaction
  • Speech Driving Directions
  • Multimodal Video Game
  • Multimodal Search
参考

 

Web Speech APIとSpeech Input API

 Web Speech APIの他にフォームに音声入力機能を追加するSpeech Input APIというAPIがあり、こちらはChrome 11から対応しています。input要素にspeech属性を追加するだけなので、実装は非常に簡単です。

 Web Speech APIとSpeech Input APIは機能的に被っている部分があります。どちらもGoogleが提案したAPIのようですが、そのあたりの経緯は以下で説明されています。Speech Input APIを提案した後により広範なWebの音声入出力を扱うWeb Speech APIをJavaScirptベースのAPIとして提案したようです。

参考

 

Text-To-Speech(自動音声読み上げ)機能

 ここからは、勉強不足ということもあり、憶測が混ざります。ご注意ください。
 Web Speech APIによって、Text-To-Speech(自動音声読み上げ)機能をJavaScriptで制御することが可能になります。これがBookshareが提供するブラウザ版電子書籍リーダーでのTTS(自動音声読み上げ)機能でおそらく活用されているのではないかと思われます(Googleの公式ブログが言及しているので)。Google Chromeは2011年にTTS APIを公開TTSエンジンを搭載※していますので、それを使用しているのでしょうか。
※2013-07-08追記
Chrome自身がTTSエンジンを搭載したのではなく、OSなどが搭載しているTTSエンジンを利用するためのAPIを公開したという話でした。誤った情報を流してしまい、大変申し訳ありませんでした。
Chrome Text To Speech – Beautiful Google – Google活用の仕方
  以下の動画で紹介されていますが、テキストを読み上げながら、読み上げる箇所をハイライト表示しています。

参考

宮崎あおい×国際子ども図書館 だと!よかろう。そっちがそのつもりならば、こちらはおけいはんだっ!

まずはささくれ先生の以下のエントリをご覧ください。

宮崎あおいと国際子ども図書館
from 宮崎あおい×国際子ども図書館 – ささくれ
全く「なんだと!」ですよね。

                 / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄\
                /                     \
              /                        \
             /      ―――            ――― \
           /          _                _   \
          /          /´ ,..::::::::::.ヽ ヽ         /´ ,..:::::::::::.ヽ ヽ \
        /        ,’  ,;::::::::::::::::::’, ’,       ,’  ,;:::::::::::::::::::’, ’, \
       /          {  {:::::::::::::::::::::} }        {  {::::::::::::::::::::::} }  \ ひどいおぉぉ
     /           ’、 ヽ::::::::::::::/ /        ‘、 ヽ::::::::::::::/ /      \ 
     |            (;;;;;;;;;;)) ̄ /       |     \   ̄          | 
     |            /’       /        ∧      ‘,               |
     |          {{        {        / ヽ     }               |
     |           ヽ       ヽ___/ __ \___ノ            | . _______
     \          人        ヽ   ´    `  ’             /  ││
       \           ( し.)                                 /   ││
        \       `¨                           /    ..││
         /                                     \      ││
        /                                          \    ││

ありえないありえないありえない・・・
『H』2013年4月号か・・・。
H boys ってどんな爽やかイケメンが読む雑誌ですか(ドンッ!)
縁が無さすぎて全然知らなかったよっ(ドンドンッ!!)
それでも、ささくれ先生が撮った上の写真だけでも少し癒されてるとかっ(ドンドンドンッ!)
関西にはおけいはんがいる。ささくれ先生と、いつか、いつか図書館×おけいはん を実現しよう、そう誓ったのでした。
以上です。
※なお、当ブログはブログ主の性格を反映して、真面目なテーマを真剣にとりあげております。このエントリはささくれのブログ主にひきずられたネタであることにご注意ください。