アクセシビリティに配慮した音声や動画（映像）の代替コンテンツの提供の話

2013-04-11 kzakza

　今回は、音声、映像コンテンツ（動画）のウェブ上でのアクセシブルな公開方法について考えてみたいと思います。

音声・映像の代替コンテンツ

　音声、映像コンテンツ（動画）を提供する際、アクセシビリティ上の観点から代替コンテンツを提供することが求めらます。W3CのウェブアクセシビリティガイドラインであるWCAG2.0では、「1.2 時間の経過に伴って変化するメディア」（JIS X8341-3:2010では、7.1.2）で、提供すべき代替コンテンツの要件がまとめられていますが、文章のみでは非常にわかりづらいので、表にまとめて整理してみました。
　

WCAG2.0（JIS X8341-3:2010）で求められる音声・映像の代替コンテンツ
（括弧内の番号はWCAG2.0の章節番号。リンク先はWCAG2.0解説書）
形態	公開方法	達成等級A	達成等級AA	達成等級AAA
音声のみ	収録済	○時間の経過に伴って変化するメディアの代替コンテンツ（1.2.1）
音声のみ	ライブ			○時間の経過に伴って変化するメディアの代替コンテンツ（1.2.9)
映像のみ	収録済	○音声トラック（1.2.1） ○時間に伴って変化するメディアの代替コンテンツ（1.2.1）		○（全ての映像について）時間の経過に伴って変化するメディアの代替コンテンツ（1.2.8）
映像のみ	ライブ
映像と音声の同期メディア	収録済	○（全ての音声に対して）キャプション（1.2.2） ○（映像に対して）時間の経過に伴って変化するメディアの代替コンテンツ又は音声ガイド（1.2.3）	○（全ての映像に対して）音声ガイド（1.2.5）	○（全ての音声に対して）手話通訳（1.2.6） ○（全ての映像に対して）拡張した音声ガイド（1.2.7） ○（全ての音声及び映像に対して）時間の経過に伴って変化するメディアの代替コンテンツ（1.2.8）
映像と音声の同期メディア	ライブ		○（全ての音声に対して）キャプション（1.2.4）

　
　「映像と音声の同期メディア」は、映像に同期して音声も再生されるコンテンツを指します。Youtubeなどで公開されている動画はほとんどがこれに該当するのではないでしょうか。「ライブ」は生中継を指しています。代表的なものはUstreamでしょうか。
　提供すべきとされている代替コンテンツのそれぞれの意味は以下の通りです（WCAG2.0及び関連文書にある用語解説の転載）。詳細は、WCAG2.0解説書を参照してください（上の表では、それぞれのWCAG2.0解説書の該当するページにリンクをはってあります。）

時間の経過に伴って変化するメディアに対する代替コンテンツ: 正しい順序で提供されている、時間の経過に伴って変化する視覚的及び聴覚的情報のテキストによる説明（トランスクリプト）を含み、時間の経過に伴って変化する情報のやりとりの結果を得る手段を提供する文書。
音声ガイド: 音声トラックに追加されたナレーションで、主音声のトラックだけでは理解できない重要で視覚的な細部を説明するもの。
キャプション: そのメディアのコンテンツを理解するのに必要な、発話および発話ではない音声情報の両方に対する、同期した視覚的表現あるいは代替テキスト。
拡張した音声ガイド: 追加の説明を付加する時間を作るために映像を一時停止させて、視聴覚のプレゼンテーションに付加した音声ガイド。
手話通訳: ある言語、通常は話し言葉を、手話に訳すこと。

代替コンテンツの提供が難しい場合

　最低限満たすべきとされる達成等級Aにおいても、音声・映像コンテンツの代替コンテンツの提供が求められていますが、それが困難な場合も当然ありうると思われます。その際においても、「みんなの公共サイト運用モデル（2010 年度改定版）」は、以下のようにせめて概要だけでも提供することを求めています（等級Aを満たすことにはなりません）。

全ての情報についてページを作成したり、字幕や音声ガイドをつけることが難しい場合は、概要情報のページを作成したり、内容に関する問い合わせ先を明記するなどの対応が求められます（ただし、JIS の等級 A を満たすことにはなりません）。
from 「みんなの公共サイト運用モデル（2010 年度改定版）」 p21

外部の動画サイトのコンテンツの埋め込んだ場合はどうなのか

　動画は自サイトでコンテンツを公開することよりも、Youtubeなどで公開されている動画を自サイトに埋め込んで公開することが多いと思われます。
そこで、気になるのが、
　　外部の動画サービスを使用する場合もWCAG2.0（JIS X8341-3:2010）の対象になるのか
ということですが、「みんなの公共サイト運用モデル（2010 年度改定版）」を参照する限り、対象になると考えたほうがよさそうです。

外部の動画公開サービスを利用し、自団体のホームページ内で動画を再生させる場合も、上記の対応が求められます。
from 「みんなの公共サイト運用モデル（2010 年度改定版）」 p21

WCAG2.0（JIS X8341-3:2010）

　前述の通り、W3CのウェブアクセシビリティガイドラインであるWCAG2.0では、「1.2 時間の経過に伴って変化するメディア」全体が今回のエントリに係る要件になります（JIS X8341-3:2010では、7.1.2）。

ガイドライン 1.2　時間の経過に伴って変化するメディア

時間の経過に伴って変化するメディアには代替コンテンツを提供する。

1.2.1 収録済の音声しか含まないメディア及び収録済の映像しか含まないメディア

収録済の音声しか含まないメディア及び収録済の映像しか含まないメディアは、次の事項が当てはまる。ただし、その音声あるいは映像がテキストの代替メディアであって、そのことがはっきりとラベル付けされている場合は除く。　（レベル A）：

収録済の音声しか含まないコンテンツ：時間の経過に伴って変化するメディアの代替が、収録済の音声しか含まないコンテンツと等価な情報を提供している。

収録済の映像しか含まないコンテンツ：時間に伴って変化するメディアの代替あるいは音声トラックが、収録済の映像しか含まないコンテンツと等価な情報を提供している。

1.2.2 収録済の音声コンテンツのキャプション

同期したメディアに含まれている収録済の音声コンテンツすべてにキャプションを提供する。ただし、そのメディアがテキストの代替メディアで、はっきりとそのようにラベル付けされている場合は除く。（レベル A）

1.2.3 収録済の映像コンテンツの音声ガイドまたは代替

同期したメディアには、時間の経過に伴って変化するメディアの代替あるいは収録済の映像コンテンツの音声ガイドを提供する。ただし、そのメディアがテキストの代替メディアで、はっきりとそのようにラベル付けされている場合は除く。　（レベル A）

1.2.4 ライブの音声コンテンツのキャプション

同期したメディアに含まれているライブの音声コンテンツすべてにキャプションを提供する。　（レベル AA）

1.2.5 収録済の映像コンテンツの音声ガイド

同期したメディアに含まれている収録済の映像コンテンツすべてに音声ガイドを提供する。　（レベル AA）

1.2.6 収録済の音声コンテンツの手話通訳

同期したメディアに含まれている収録済の音声コンテンツすべてに手話通訳を提供する。　（レベル AAA）

1.2.7 収録済の映像コンテンツの拡張した音声ガイド

前景音の合間が音声ガイドが映像と同じ意味を伝達するのに十分ではない場合、同期したメディアに含まれている収録済の映像コンテンツすべてに拡張した音声ガイドを提供する。　（レベル AAA）

1.2.8 収録済のメディアの代替

収録済の同期したメディアすべて及び収録済の映像しか含まないメディアすべてに、時間の経過に伴って変化するメディアの代替を提供する。　（レベル AAA）

1.2.9 ライブの音声しか含まないコンテンツの代替

ライブの音声しか含まないコンテンツと等価な情報を提示する時間の経過に伴って変化するメディアの代替を提供する。　（レベル AAA）

参考:達成基準 1.2 を理解する | WCAG 2.0解説書

Google Chrome がWebに音声認識機能を埋め込めるWeb Speech API に多言語で対応。WebへのTTS機能埋め込みも可能？

2013-03-042023-03-25 kzakza

　Google Chromeが安定版のver. 25でWebアプリに音声認識機能を埋め込めるWeb Speech APIに対応しました。しかも、日本語を含む多言語対応です。音声でウェブアプリを操作するといったことが可能になるようです。
　Googleの中の人による紹介動画が公開されています。　

　Googleがデモサイトを公開していますので、音声認識の精度を実際に試すことが可能です。

Web Speech APIの仕様には、このAPIのユースケースとして以下が挙げられています。Web Speech APIはWebの音声入力（speech-input）と自動音声読み上げ（Text-To-Speech）の制御をJavaScriptによって実現することを目的としているようですが、自動音声読み上げ（Text-To-Speech）に該当するものがない・・・？

Voice Web Search
Speech Command Interface
Domain Specific Grammars Contingent on Earlier Inputs
Continuous Recognition of Open Dialog
Domain Specific Grammars Filling Multiple Input Fields
Speech UI present when no visible UI need be present
Voice Activity Detection
Temporal Structure of Synthesis to Provide Visual Feedback
Hello World
Speech Translation
Speech Enabled Email Client
Dialog Systems
Multimodal Interaction
Speech Driving Directions
Multimodal Video Game
Multimodal Search

参考

Web Speech APIとSpeech Input API

　Web Speech APIの他にフォームに音声入力機能を追加するSpeech Input APIというAPIがあり、こちらはChrome 11から対応しています。input要素にspeech属性を追加するだけなので、実装は非常に簡単です。

Google Chrome11でサポートされた音声入力API – Webtech Walker

　Web Speech APIとSpeech Input APIは機能的に被っている部分があります。どちらもGoogleが提案したAPIのようですが、そのあたりの経緯は以下で説明されています。Speech Input APIを提案した後により広範なWebの音声入出力を扱うWeb Speech APIをJavaScirptベースのAPIとして提案したようです。

参考

Using voice to drive the web: Web Speech API | Adobe Developer Connection

Text-To-Speech（自動音声読み上げ）機能

　ここからは、勉強不足ということもあり、憶測が混ざります。ご注意ください。
　Web Speech APIによって、Text-To-Speech（自動音声読み上げ）機能をJavaScriptで制御することが可能になります。これがBookshareが提供するブラウザ版電子書籍リーダーでのTTS（自動音声読み上げ）機能でおそらく活用されているのではないかと思われます（Googleの公式ブログが言及しているので）。Google Chromeは2011年にTTS APIを公開~~TTSエンジンを搭載~~※していますので、それを使用しているのでしょうか。
※2013-07-08追記
Chrome自身がTTSエンジンを搭載したのではなく、OSなどが搭載しているTTSエンジンを利用するためのAPIを公開したという話でした。誤った情報を流してしまい、大変申し訳ありませんでした。
・Chrome Text To Speech – Beautiful Google – Google活用の仕方
　　以下の動画で紹介されていますが、テキストを読み上げながら、読み上げる箇所をハイライト表示しています。

参考

『アクセシビリティハンドブック』（O'Reilly Japan）

2013-02-26 kzakza

　以下の本を一読したので、感想などをメモ程度に。

『アクセシビリティハンドブック』（O’Reilly Japan）
　ウェブアクセシビリティについていろいろと調べていくと、これはこうだからダメ、あれはああなのでそうしたほうがいいということがある程度わかってきますが、調べれば調べるほど表層的な部分に触れる程度の理解でしかないことを痛感します。
　それでこの書籍です。目次をみて、障害者がどのような困難に遭遇しているかを障害別に詳しく書いてあるのかと期待してすぐに読んでみました。しかし、内容は障害別にウェブアクセシビリティを配慮したコンテンツの作成の方法をまとめたもので、そう言う意味では少し期待を裏切られました。
　とはいえです。他の本のようにJavaScript、フォーム、テーブルといった開発者視点の分類でのウェブアクセシビリティ解説より、なぜ対応しなければならないかという理由とその対応方法がセットになっているこの本のほうが初めてウェブアクセシビリティについて触れる人には理解しやすいかもしれません。ページ数も10.5インチのiPadで読めば、だいたい100頁強ですので、数時間で通読できるものだと思います。巻末に障害別にツール類を紹介したまとめが掲載している点もポイントが高い。
　なお、ですが、この本を手にとったそもそもの動機を満足させるためには、個々に書籍にあたっていくしかないようです（し、実際にいろいろと読んでもいる）。しかし、障害者の抱える困難については、国立国会図書館が公開する以下の研修資料がよくまとまっています。

平成24年度障害者サービス担当職員向け講座 | 国立国会図書館

カテゴリー: ウェブアクセシビリティ

アクセシビリティに配慮した音声や動画（映像）の代替コンテンツの提供の話

音声・映像の代替コンテンツ

代替コンテンツの提供が難しい場合

外部の動画サイトのコンテンツの埋め込んだ場合はどうなのか

WCAG2.0（JIS X8341-3:2010）

ガイドライン 1.2　時間の経過に伴って変化するメディア

1.2.1 収録済の音声しか含まないメディア及び収録済の映像しか含まないメディア

1.2.2 収録済の音声コンテンツのキャプション

1.2.3 収録済の映像コンテンツの音声ガイドまたは代替

1.2.4 ライブの音声コンテンツのキャプション

1.2.5 収録済の映像コンテンツの音声ガイド

1.2.6 収録済の音声コンテンツの手話通訳

1.2.7 収録済の映像コンテンツの拡張した音声ガイド

1.2.8 収録済のメディアの代替

1.2.9 ライブの音声しか含まないコンテンツの代替

関連エントリ

ウェブアクセシビリティガイドラインについて

代替テキスト

リンクのはり方

テキスト

Google Chrome がWebに音声認識機能を埋め込めるWeb Speech API に多言語で対応。WebへのTTS機能埋め込みも可能？

参考

Web Speech APIとSpeech Input API

参考

Text-To-Speech（自動音声読み上げ）機能

参考

『アクセシビリティハンドブック』（O'Reilly Japan）

音声・映像の代替コンテンツ

代替コンテンツの提供が難しい場合

外部の動画サイトのコンテンツの埋め込んだ場合はどうなのか

WCAG2.0（JIS X8341-3:2010）

ガイドライン 1.2 時間の経過に伴って変化するメディア

1.2.1 収録済の音声しか含まないメディア及び収録済の映像しか含まないメディア

1.2.2 収録済の音声コンテンツのキャプション

1.2.3 収録済の映像コンテンツの音声ガイドまたは代替

1.2.4 ライブの音声コンテンツのキャプション

1.2.5 収録済の映像コンテンツの音声ガイド

1.2.6 収録済の音声コンテンツの手話通訳

1.2.7 収録済の映像コンテンツの拡張した音声ガイド

1.2.8 収録済のメディアの代替

1.2.9 ライブの音声しか含まないコンテンツの代替

関連エントリ

ウェブアクセシビリティガイドラインについて

代替テキスト

リンクのはり方

テキスト

参考

Web Speech APIとSpeech Input API

参考

Text-To-Speech（自動音声読み上げ）機能

参考

ガイドライン 1.2　時間の経過に伴って変化するメディア