アクセシビリティの観点から電子書籍のおけるTTSの読み上げの正確性をどこまで保障するべきか

 総務省から電子書籍のアクセシビリティを確保するための調査研究の報告書が出たこともあって、また、それに関係しての前後の動きだと思いますが、電子書籍のアクセシビリティに関係するイベントが最近、開催されることもあって、タイトルにあるようにアクセシビリティの観点から電子書籍のおけるTTSの読み上げの正確性をどこまで保障するべきかという議論が起きています。

 端的にいって、SSMLなどを用いてTTSによる読み上げの正確性を保障することについては、賛否両論、というより、Web関係者の間では、批判的な意見が多いような印象がありますが、私の考えをまとめておこうかと思います。知識不足からくる思い込みもあるかと思いますので、ご容赦を。

 結論から言えば、TTSの読み上げの正確性をどこまで保障するべきかは求められるニーズと負担できるコストによる、つまり、コンテンツ次第なので一律に全部保障すべきであるとか、TTSに任せておけばよいとも言えない、というのが正直なところです。誤読があっても許容できる(それよりもむしろ早く提供してほしいというニーズがつよい)ものもあるでしょうが、一方で、教科書や辞書、児童向けの書籍(ルビなどが多くふられている書籍などはイメージしやすいでしょうか)などのように、正確な読み上げが求められるものが確かにあります。

 ですので、コンテンツの性質と目的、正確性を求められるニーズ、負担できるコストに応じての水準で、正確性を保障していければよいのだろうと考えています。問題は、現在の状況は、この「応じての」対応ができないことです。
 
 現時点では、SSML(ヨミ情報等をTTSに渡すマークアップ言語)やPLS(ヨミ情報の辞書)に対応したEPUBの閲覧環境や制作環境がないため、TTSでは、読み上げの正確性のニーズに対して、現状では対応できません。そのため、肉声等によって正確に読み上げられた音声ファイルを作成する(つまり、録音図書かマルチメディアDAISYとして作成する)しか方法がありません。
 
 つまり、誤読も許容してTTSの辞書任せで読み上げさせるか、マルチメディアDAISY化(つまり、肉声等による読み上げで完全に正確な読み上げを保障するもの)か、のどちらかしか選択肢がしかなく、その中間がありません。たとえば、基本的に誤読は許容するけど、専門用語や人名、地名などの誤読はなくしたいとか、ルビが振られている箇所だけは誤読をなくしたいという中間的なニーズにあった対応方法がなく、そのゼロか百かのいずかの選択をせざるを得ない状態です(正確にはルビを読み上げさせるとか、部分的なマルチメディアDAISY化というのも考えられなくはないですが)。

 また、EPUBリーディングシステムのMedia Overlaysへの対応が進んでいるとはまだまだ言えない状況であるため、上の後者(音声化)の選択も実質的にはとりづらく、アクセシビリティの観点からみれば、EPUBは誤読を許容するコンテンツしか入る余地がない状況です。

 また、別の問題として、TTSが読み上げない文字の存在があります(基本的にSHift-JISでサポートしていない文字に多いと考えればよいみたい)。

図 3 TTS ソフトの読み上げ可能な領域と読み上げ不可の領域。音声合成システム(TTS)が読める範囲は、JIS X 0208:1997の範囲、つまり、第2水準までの6879文字であり、JIS X 0213:2004に含まれている文字で第3水準以降の4354文字はTTSでの読み上げに対応してないことが示されている
日本語の文字は JIS 第 1 水準、第 2 水準を規定した JIS X 0208:1997 と、第 3 水準、第 4 水準を規定した JIS X 0213:2004、そしてこれらに含まれない外字などが存在する。TTS ソフトで読み上げ可能な文字は現状では JIS X 0208:1997 の範囲にとどまっており、JIS 化されている文字のほぼ半分が読み上げ対象外となっている。
(PDF)音声読み上げによるアクセシビリティに対応した電子書籍制作ガイドライン」p11

 TTSは、これらの文字の存在そのものは、認識はするものの、まったく読み上げません。誤読でも読み上げてくれれば、全盲者でもその存在を認識できますが、読み上げない文字を全く認識することができません。こういう文字はSSMLなどで読みを入れて読み上げられるようにするしか方法はないのではと思います。

 全文にSSMLを入れるというのは、おそらくは当面、かなりの高コストなのでしょうが、部分的にここだけは読み上げを保障したいというところにSSMLを使うとか。制作環境でルビタグを入れる箇所には、自動的にSSMLも入れる機能を実装する(略ルビとかいろいろあるので、修正は必要でしょうか。)ことで、ルビがふられた箇所の読み上げの正確性を保障するとか(児童書など出版社が子どもに対する配慮でルビが必要だと判断した箇所に結果として読み上げが保障されることになる)とかできないだろうかと考えるわけです。
 
 EPUB 3では、SSMLに加えて、PLSという形式で全体にわたる読み情報の指定を辞書という形で持たることができます。本文中に何度も出てくる固有名詞や地名、索引に掲載される用語についてPLS辞書を持たせるだけでもかなり誤読を減らすことができるはずです。EPUB3の仕様では、TTSが読み上げる優先順位は、

SSML>PLS>TTSの辞書

となっています。全文にSSMLを埋め込む方法がもっとも読み上げの正確性を保障できますが、仕様通りに実装されているならば、全体にわたる読み情報の指定は、PLS辞書で、それ以外の例外的な読み方法の提供はSSMLで指定するだけでもかなりの正確性を担保できるのではないかと思います。地名などは、PLS辞書を使い回せないのかとも思ったりしますが、これはどうなのでしょうか。

 上に紹介した総務省の報告書には、ウェブアクセシビリティガイドラインで知られるW3CのWCAG2.0に倣って、読み上げ対応について、達成度を3段段階にわけて要件を提示しています。
 個々の要件やそれぞのレベルについては、議論のあるところかもしれませんが、私は全体的な傾向は概ね同意できます。

  • まずは、出版される全ての出版物でレベル1を目指す。
  • その中からコンテンツの性質、ニーズに応じてレベル2や3を目指す(今は、それを実現できる実装が制作環境にも節欄環境にもないので、まずはそれの実現が必要ですが)。
  • そして、場合によっては図書館等が視覚障害者等の利用者のリクエストを受ける形で、著作権法第37条第3項に基づいてアクセシビリティ機能を追加して、レベルを引き上げる(著作権法第37条第3項でアクセシビリティの追加をどこまでできるかは議論のあるところですが)

というは、考えとしてありではないかと思いました。

表 1-1 音声読み上げによる電子書籍アクセシビリティの実現レベル(案)

レベル 電子書籍コンテンツ リーダー
0 ・音声読み上げを行えるようなテキストデータを持たない場合。 ・OS が提供するアクセシビリティ支援機能を利用することができない場合。
・又は、電子書籍専用端末が、アクセシビリティ支援機能を持たない場合。
1 ・音声読み上げに対応できるよう、テキストデータを持っていること(紙面が画像で構成されている固定レイアウト型の場合は、マルチレンディション1により、画像とは別にテキストデータを持つ)。
・かつ、最低限の構造化がなされていること。
・電子書籍コンテンツに含まれるテキストデータを、OS が提供するアクセシビリティ支援機能に渡せること、またはリーダーがテキストデータを読み上げできること。
・また、電子書籍の構造に従い、最低限のナビゲーション機能が利用できること。
2 ・テキストを正しく読み上げできるよう、誤読しやすい部分や音声化しないと内容伝達に支障がある画像等(例えば外字)に対して、正しい読み方の情報を持っていること。
・かつ、章や節などが正しく構造化されていること。
・電子書籍コンテンツに含まれるテキストデータを、OS が提供するアクセシビリティ支援機能に加え、TTS ソフト等のアクセシビリティ支援ツール等に出力できること。
・又は、レベル 2 以上の電子書籍コンテンツが持つ読み方の情報をテキストデータとともに出力できること。
・上記に加え、電子書籍コンテンツの構造に従い、目次と本文の間の移動、飛ばし読みなど適切なナビゲーション機能が提供されていること。
3 ・レベル 2 に加え、電子書籍のテキスト及び音声化しないと内容伝達に支障がある画像等(例えば外字)のすべてに対して、正しい読み方の情報もしくは正しく読み上げられた音声データファイル(audio データ)を持っていること(肉声、TTS は問わない)。
・また、発話する言語種別に関する情報、発話音声の種別(性別、声質等)に関する情報を持っていること。
・レベル 2 に加え、レベル 2 以上の電子書籍コンテンツが持つ、読み方その他発話に関する情報に基づき、その指示とおりに正しく読み上げできること。
・その際に、読み上げスピードの変更等、利用者に適した読み上げを行えるように調整を行えること。
・また音声データファイルを持つ電子書籍の audio データを再生することができ、メディアオーバーレイ(mediaoverlays)の機能が再生可能なこと。

(PDF)電子書籍のアクセシビリティを確保するための調査研究報告書』3ページ(PDFのページでは8/84ページ)より

 話は少し逸れて、最後に申し上げておくと、電子書籍のアクセシビリティという話になると、議論が読み上げ対応が集中しすぎてしまっている印象があります。アクセシビリティが求められるのは、読み上げソフト利用者に限定されないので、アクセシビリティメタデータやリーディングシステムの実装(どのような支援機能が必要か 文字サイズ変更、行間変更、配色変更、縦書き・横書き変更 etc.)などなど、スコープを拡げて要件を整理していく必要があると思います。