視覚障害や学習障害など様々な理由で印刷物を読むことが困難な状態、つまり、プリントディスアビリティ(Print Disability)にある人のために、紙の書籍からテキストデータコンテンツ(テキストDAISYやプレーンテキストなど)を製作する図書館や機関、団体が増えてきています。紙からテキストデータを作成する場合には、まずOCRの認識率の問題、それに伴うテキスト校正作業のコストの問題が出てきますが、今回はそれは置いておいて、テキストコンテンツ記述面における提供の課題について整理したいと思います。
一言で申せば、音声合成システム(TTS)では、読み上げられない文字が存在することに起因する問題です。
1. 音声合成システム(TTS)で読み上げられない文字
「読み上げられない」というのは、漢字の読み間違いのような誤読が発生するという話ではなく、音声合成システム(TTS)がその文字の辞書そのものを持っていないという問題です。そのため、該当する文字に音声合成システム(TTS)が出会った場合に、そこに文字があるということそのものは認識するようですが、その文字を無視をして読み上げません。
総務省が2015年7月に公開した「音声読み上げによるアクセシビリティに対応した電子書籍制作ガイドライン」に詳しいので、該当箇所をそのまま引用します。
日本語の文字は JIS 第 1 水準、第 2 水準を規定した JIS X 0208:1997 と、第 3 水準、第 4 水準を規定した JIS X 0213:2004、そしてこれらに含まれない外字などが存在する。TTS ソフトで読み上げ可能な文字は現状では JIS X 0208:1997 の範囲にとどまっており、JIS 化されている文字のほぼ半分が読み上げ対象外となっている。
from 「(PDF)音声読み上げによるアクセシビリティに対応した電子書籍制作ガイドライン」p11より
なお、実際のところ、第3水準以降の全ての文字を音声合成システム(TTS)で読み上げられないというわけではなく、第3水準以降でも一部の文字については、読み上げるソフトもあるようです(多くが第2水準以下に含まれる漢字の異体字だと思われます)。とはいえ、多くの文字が音声合成システム(TTS)で読み上げられないという問題が存在することには変わりありません。第3水準以降の文字は、現在の日常生活ではほとんど見かけることにない漢字ばかりですが、地名や人名などに用いられることもあるため、そのような地名、人名がでてくる可能性の高い学術文献や旧字資料のテキストデータを提供する場合には、これに対する対応が求められます。
漢字の読み上げで誤読をしても、その誤読から文字を類推することは可能ですし、その文字の存在をユーザーに伝えることもできます。また、熟語単位で読み間違えても一字単位に文字を読み上げることで、文字を確認することができますので、一定の確かさは保障されているとはいえます。しかし、音声合成システム(TTS)が音に出して読み上げることそのものができない文字はそれもできません。プリントディスアビリティのある人を想定してテキストデータを製作する場合は、これらの文字に対する何らかの対応が必要になります。
2. 音声合成システム(TTS)が読み上げない文字に対する対応
対応する方法として次の(1)から(6)が考えられます。
以下の(1)から(6)の例として、中国は清代末期の人物、「李沅発」(り げんはつ)の「げん」の字に用いられている
の字を用います。第3水準の漢字。この人物の名前ですが、TTSで読み上げると、「沅(げん)」の字を読み上げずに「すもも はつ」と読み上げるものが複数あるようです。
※2016年2月16日追記
最初、「宮﨑あおい」の「﨑」を例として挙げていましたが、「﨑」の字は複数のTTSで読めるという指摘を複数の人からいただきました。そこで、宮﨑あおいとは違い、この人物に全く思い入れはありませんが、「李沅発」(り げんはつ)(参考 李ゲン発 – Wikipedia)を例として使用することにしました。
(1)の1 読みを補記する
該当する文字の後ろに括弧でくくるなどして、読み情報を補記する方法です。
例(李沅発の後ろに読み情報である「り げんはつ」を追加)
長所
- 原本通りの漢字をそのまま使用したまま、正確な読み上げを一応担保できる。
- プレーンテキストでも記述が可能である。
短所
- 原本に存在しない情報が本文に混ざるため、原本に本来あった情報とあとで補記された情報が区別できなくなってしまう。
- 原本に存在した情報とテキスト作成者が補記した情報を区別できたとしても、引用する時の作業で、注記を削除する作業が必要になる
- 上の例の「李沅発(り げんはつ)」の場合、「李」と「発」の字は読み上げに対応しているため、その部分が二度読まれることになる(つまり、この場合、「すももはつ りげんはつ」と読まれる)。
※2016年2月13日追記
(1)の2 読みを補記する(注記であることを明記する)
(1)の1では、原本に本来あった情報とあとで補記された情報が区別できないという問題がありました。そこで、補記した注記であることをの説明を追加するという方法が考えられます。
なお、以下の例では、わかりやすく「テキスト作成者注記 注記ここまで」と言葉で注記の範囲を示していますが、※(米印)などで置き換えてもよいかもしれません。その場合は、※(米印)で囲んだものが、テキスト作成者による注記であることを、冒頭に凡例の形で分かるようにしておく必要があります。
例(宮﨑の後ろに読み情報である「みやざき」、その前後に注記であることをの説明を追加)
長所
- 原本通りの漢字をそのまま使用したまま、正確な読み上げを一応担保できる。
- 原本にあった情報と注記としてテキスト作成者が補記した情報を区別できる。
- プレーンテキストでも記述が可能である。
短所
- 原本に存在した情報とテキスト作成者が補記した情報を区別できたとしても、引用する時の作業で、注記を削除する作業が必要になる
- 上の例の「李沅発(り げんはつ)」の場合、「李」と「発」の字は読み上げに対応しているため、その部分が二度読まれることになる(つまり、この場合、「すももはつ てきすとさくせいしゃちゅうき りげんはつ ちゅうきここまで」と読まれる)。
※2016年2月13日追記ここまで
(2)代替可能な漢字に置き換える
異体字のような代替可能な漢字がある場合に限られますが、音声合成システム(TTS)が読み上げられる文字に置き換える方法です。
例(「沅」を異体字の「源」に置き換える)
長所
- 音声合成システム(TTS)が読み上げられる上に、(1)のような二度読みをさけることができる。
- プレーンテキストでも記述が可能である。
短所
- 原本に忠実な表記ではない。漢字を置き換えたことを何らかの形で情報として提供しない限り、ユーザーがどこで漢字が置き換えられたか判別することができない。
(3)特に何もしない
読み上げられない文字はやむを得ないと割り切って何もしないという対応です。
例
長所
- 原本に忠実な表記である。
短所
- 音声合成システム(TTS)が該当箇所を読み上げられない。
(4)構造化した読み情報を本文とは区別できる形で提供する(ルビをふる)
原本本来の表記を維持し、かつ読み情報を本文と混同させないためには、読み情報を構造化し、本文と区別できる形で提供する必要があります。その1つの方法として、ルビをふるという方法があります。
例(ルビをふる)
長所
- 本文と区別することができるため、TTSで正確な読みを担保した上で本文の確かさを保障することができる。
- ルビの読み上げに対応しているDAISY閲覧ソフト、EPUB3閲覧ソフトは多い。
短所
- EPUBやDAISY3ではこの方法をとることができるが、プレーンテキストでこの方法はとることができない。
- ルビと漢字の両方を読む音声合成システム(TTS)が多いため、二度読みされる箇所がある。上の例の「宮﨑(みやざき)」の場合、「宮」の字は読み上げに対応しているため、その部分が二度読まれることになる(つまり、この場合、「みやみやざきあおい」と読まれる)。
- サピエ図書館が定めるテキストDAISYの製作ガイドラインでは、ルビは原本にある場合にのみに使用するとなっており、音声合成システム(TTS)に対応していない文字に読み情報を追加する用途は、このガイドラインでは想定されていない。
(5)構造化した読み情報を本文とは区別できる形で提供する(SSMLを使用する)
ルビは、読み情報を提供するだけではなく、説明をつけたり、様々な用途に用いられるため、かならずしも用途に適しているとはいえません。そもそもルビは人間であるユーザーに見せるために表示するものであって、機械、つまり、音声合成システム(TTS)に読み情報を伝達するというのは、ルビのあり方としては本来は副次的なものとも言えます。機械(TTS)に読み情報を伝えることを伝えることを本来の役割としているSSML (Speech Synthesis Markup Language)を用いるという方法が考えられます。
例(SSMLで記述する)
長所
- 本文と区別することができるため、TTSで正確な読みを担保した上で本文の確かさを保障することができる。
- 二度読みをさけることができる。
- ruby要素を用いず、SSMLによって読み情報を持たせることができるため、サピエ図書館のテキストDAISYの製作ガイドラインとも衝突しない)。
短所
- EPUB3はSSMLに対応しているが、DAISY3では対応していない。構造化できないプレーンテキストでももちろん利用することはできない。
- EPUB3閲覧ソフトでもSSMLに対応しているものは皆無(ではないかと思われる)
(6)音声を追加する
音声合成システム(TTS)ではなく、肉声で読み上げた音声データを追加する方法も考えられます。一言で言えば、DAISYまたはEPUB形式の「マルチメディアDAISY」として提供するということになります。マルチメディアDAISYとして提供する場合は、該当する文字だけではなく、全文テキストに対応する音声を追加することが前提となります。該当する文字だけ、または、それを含む文章に対してだけ音声データを追加する方法も考えられなくはありません。しかし、その場合は、読み上げる箇所に応じて音声合成システム(TTS)による読み上げと音声データに読み上げが自動的にうまく切り替えられる必要があると思いますが、そのような機能を備えたDAISYまたはEPUB閲覧ソフトはない気がします。
長所
- 肉声で読み上げた音声を別につくるため、原本に忠実な表記を維持しつつ、正確な読み上げを担保することができる。
不必要な二度読みも避けることができる。
短所
- 音声データを別に用意する必要があるため、それを製作するたコストがかかる。
- 音声データとテキストデータを関連づける編集作業コストもテキストの長さに応じてそれ相応にかかる。
- 音声データを持つことになるため、ファイルサイズが重くなる。
参考
マルチメディアDAISYについては、以下をご参照ください。
学術活動における利用の場合は、テキストが引用されることも想定しなければなりません。原本と異なる文字が使用されたり、本来原本に含まれていない情報が補記として区別できない形で追加されてしまうとその利用に支障がでる可能性があります。そのため、学術活動でも利用されることを想定する場合は、原本に忠実な表記を維持しつつ、原本に本来あった情報と区別できる形で読み情報を音声合成システム(TTS)に提供することが求められます。その点では、上の(1)の2、(4)、(5)、(6)の対応が求められるということになります。その点では、上の(4)から(6)の対応が求められるということになりますが、製作コストやフォーマットによる制限で(1)から(3)の対応をせざる得ないこともあります。
上でも少し触れましたが、次はテキストデータコンテンツを提供するフォーマットについても少し整理します。
3. 提供するフォーマットの課題
プリントディスアビリテリィのある人にテキストデータコンテンツを提供するフォーマットとして、現時点では、プレーンテキスト、DAISY3、そして、その後継規格であるEPUB3が考えられます。上の2でも(1)から(6)の話の中で、触れているところもありますが、フォーマットごとに長所と短所をまとめてみました。DAISY3とEPUB3そのものについては、再掲になりますが、以下で紹介していますので、こちらをご参照ください。
(1)プレーンテキスト
拡張子txtのテキストデータです。どの環境でも編集や閲覧ができるエディタは標準でインストールされています。編集も特別なICTスキルは必要なく、製作環境、閲覧環境ともにもっとも制約の少ないフォーマットと言えます。
長所
- 構造化のコストもかからないため、低コストかつ短期間で製作することができる。
- 製作環境を選ばないため、多くの人間が製作することが可能である。
- 専用のソフト等のインストールが必要なく、閲覧環境にほぼ制限がない
- ファイルサイズも軽量である
短所
- 構造化できないため、コンテンツが大部になる場合のナビゲーションが不足する
- 音声合成システム(TTS)が読み上げない文字については、上の2(1)〜(3)のいずれかの対応に限定される。
(2)DAISY3
日本では、プリントディスアビリィのためのテキストDAISYは、主にDAISY3で製作されていいます。ルビをふることで読み情報を補記することも「一応可能」です。
長所
- 構造化できるため、大部なコンテンツでも様々なナビゲーションを提供できる。
- ルビをふることが「一応可能」であり、ルビという形で本文とは区別される形で読み情報を提供することができる。
- プレーンテキストに比べると閲覧環境に制約があるとはいえ、後で紹介するEPUB3と比べると閲覧環境はまだ整備されている(とはいえ、DAISY2.02で製作された音声DAISYと比較するとまだまだ限定的である)。
- DAISY3に対応した閲覧ソフトは、プリントディスアビリティのある人が利用することを想定されているため、アクセシビリティに十分配慮されてる。
- マルチメディアDAISYの製作も可能(ただし、日本では、ほとんどのマルチメディアDAISYはDAISY2.02で製作されている。)
短所
- プレーンテキストと比較すると、構造化に製作コストがかかる。
- ルビ表記は一応実現されているが、これは日本独自の実装によるもので、DAISY3本来の仕様には含まれているものではない。そのため、正式なコンバータでEPUB3に変換した場合には、ルビにいれた情報はおそらく落とされる。長期保存の観点から問題がある。
(参考)DAISY3がruby要素に対応していないため、この手法が使用されてる。
ruby要素を擬似的に再現する ≪ Archive ≪ Alias under the Azure) - サピエ図書館が定めるテキストDAISYの製作ガイドラインでは、ルビは原本にルビがある場合にのみに使用するとなっている。音声合成システム(TTS)に対応していない文字に読み情報を追加する用途は、このガイドラインでは想定されていない。
(3)EPUB3
電子書籍のメインストリームのフォーマットとして使用されていますが、DAISY3の後継規格でもあり、DAISYが備えるアクシブルな機能を継承し、さらには読み情報の構造化に関する機能など日本語にとって重要な機能が追加されています。純粋に技術的な観点でみれば、フォーマットとしては、これが解決策になりえますが、短所にも書いてあるとおり、閲覧環境が十分ではありません。
長所
- 構造化できるため、大部なコンテンツでも様々なナビゲーションを提供できる。
- ruby要素に仕様レベルで正式に対応している。
- SSMLによって読み情報を持たせることが可能である。
- マルチメディアDAISYの製作も可能(ただし、日本では、ほとんどのマルチメディアDAISYはDAISY2.02で製作されている。)
短所
- プレーンテキストと比較すると、構造化に製作コストがかかる。
- プリントディスアビリティにとって使いやすい閲覧環境がDAISY3と比較してもまだ十分に整備されていない(とはいえ、かなり改善されつつある)
- SSMLに対応した閲覧ソフトも編集環境もまだない(と言い切ってよいと思う)。
(4)その他
その他に、WORDファイルもあり得るかもしれません。WORDファイルのアクセシビリティは私も勉強不足でまだよく分かっていませんので、ここでは、省略します。
4. まとまりのないまとめ
マルチメディアDAISYや、SSMLを用いて読み情報を提供するEPUB3形式で提供できれば理想的と言えます。
しかし、プレーンテキストからDAISYやEPUBを製作するには構造化のコストがさらにかかり、また、製作環境や閲覧環境も制約されるため、常にこれを選択できるわけではありません。特にEPUB3閲覧ソフトでSSMLに対応しているソフトは皆無ではないかと思われるため、現時点でのSSMLを用いたEPUB3形式での提供は時期尚早だと思われます。マルチメディアDAISYも上で述べたように音声ファイルの製作コストやそれにテキストデータを関連付けるコストがさらにかかります。
製作コスト、製作環境や閲覧環境の観点からみれば、プレーンテキストが他のフォーマットに比べて優れていると言えるかもしれません。しかし、音声合成システム(TTS)が読み上げない文字に対する対応としてプレーンテキストでとれるものは、上の2にあげたものでは、上にあげた2の(1)から(3)のいずれかになります。(1)の1「読みを補記する」、(2)「代替可能な漢字に置き換える」、(3)「特に何もしない」は一長一短あり、全ての利用者層のニーズを満たすものはありません。かろうじて、(1)の2の「(1)の2 読みを補記する(注記であることを明記する)」が、広い範囲のニーズを満たすものと言えるでしょうか。どれも一長一短あり、全ての利用者層のニーズを満たすものはありません。
音声合成システム(TTS)が読み上げない文字に対する対応の観点からは、プレーンテキストでは、(1)の2の「読みを補記する(注記であることを明記する)」の対応をしつつ、構造化では、EPUB3のSSMLの利用環境が整うまでは、DAISY3による構造化しかないかもしれません。(1)の2の対応では、構造化を見越して自動的に構造化できるような記述方法がとれるとなおよいかもしれません。
なんとも歯切れのわるい話ですが、音声合成システム(TTS)が読み上げない文字に対する対応の観点から、現時点で100点といえるフォーマット、記述方法はないため、EPUB3のSSMLの利用環境が整うまでは、対象となるコンテンツと提供する利用者像を勘案して対応を検討するほかないかもしれません。
※2016年2月13日追記
(1)の2が追加されたことにともない、上のように修正しました。