AIでEPUBの画像の代替テキストを自動生成してみる、の発表(DPUB Summit 2019)

 6月にフランスで開催された電子出版の、内容的にはEPUBとアクセシビリティのイベントDigital Publishing Summit 2019 – EDRLabの動画とスライドが公開されています。

 少しずつ見ているのですが、Session 2の”New technology trends in the publishing industry”でのGregorio PELLEGRINO 氏のGoogle や Micorsoft のAIのAPIを活用して画像の代替テキストの自動生成を試みた”Improving automatic image description in EPUB using Artificial Intelligence”が現時点での、一般に利用できるこの手のAIを活用した代替テキストの自動生成の状況が分かりやすく紹介されています。

手順は、以下のようです。

  1. Google Cloud AutoML Visionでカテゴライズ
  2. カテゴリによってGoogle Cloud Vision APIMicrosoft Computer Visionのどちら得意そうな方に振り分けて内容説明のテキスト生成<

写真やカバー、ロゴ等の比較的シンプルな画像だったということもあるようですが、1のカテゴライズの成功率が42%、2の説明テキスト生成の成功率が50%だったとのことで、個人的な印象ですが、画像を読み込んでの自動生成ということを考えると、そこそこ高いのではと感じました。画像が挿入される前後の本文のコンテキストによって求められる代替テキストの内容も変わるので、そこまで求めたら、まぁ・・・厳しそうではありますが。
日本語だとどうなのか、学術書に掲載されるような複雑な図やグラフなどの画像だとどうなるか、というあたり気になるところです。

スマートスピーカーでのDAISY再生環境はないのか

 アマゾンのAlexaやGoogleアシスタントなどのAIアシスタント機能を持つスピーカーが備える Voice User Interface (VUI)は、DAISYオンライン配信プロトコルを利用したサピエ図書館が提供しているようなデイジーオンラインサービスとも親和性が高いはず。モニタを備えないDAISY機器( PTR 3リンクポケット など)からサピエ図書館を検索し録音図書データなどをダウンロードして読めるサービスをすでに実現していて、インプットこそボタン操作であるものの、アプトプットは音声情報のみも可としています。ほぼVUI。インプットを音声にできれば、もうできるのでは。
 2018年度サピエ研修会資料 では、アマゾンジャパンから「視覚障害者へのAIスピーカーの可能性について」という発表もなされているので、その後の動向が非常に気になります。
 海外で、スマートスピーカーでのDAISY再生環境を探してみて、プリントディスアビリティのある人を対象とした世界最大の電子図書館Bookshareについて以下のような要望があがってることは確認できる。

 ニュージーランドの盲人協会がアレクサスキルを公開しているようです。もしかして初めての事例?

 なお、Bookshareについては、How Amazon Alexa Can Help You Read によると、2018にBookshareは近日中に対応予定と回答してるようです。まだでしょうか。

ALEXA AND BOOKSHARE
Bookshare is an accessible online library for people with print disabilities. Books, magazines, and other publications are available in accessible formats such as EPUB, DAISY, MP3, and more. Previously, I have been able to read Bookshare books by uploading the MP3 files to my Amazon Music Library and having it read the book by asking Alexa to play the file name, but Amazon Music Library is discontinuing its uploading capabilities. I contacted Bookshare in July 2018 and they said that Alexa capabilities are coming very soon.

2019/5/12 追記
上では、コンテンツプロバイダ(DAISY配信サービス)ばかりに言及していますが、純粋な意味でのDAISY再生環境(閲覧スキル)について、言及していませんでした。残念ながら、それもまだないみたいです。たぶん。

自分の声の合成音声を作成するサービス my-own-voice

 自分の声のサンプルを基に自分の声の合成音声をつくることができるサービス。最終的にWindows SAPIなどのアプリケーションに取り込むことができる合成音声を生成することができるようです。自分の声で、Windows ナレーターを使って読み上げさせるということも可能になるということです。たしか『おしゃべりなコンピュータ 音声合成技術の現在と未来 (丸善ライブラリー) 』でも紹介されていたような。
※2019/3/22 追記 『おしゃべりなコンピュータ 音声合成技術の現在と未来 (丸善ライブラリー) 』を改めて確認したところ、この本で紹介されていた自分の声を合成音声する話は、山岸順一先生のボイスバンクプロジェクトでした。失礼しました。

 合成音声をつくるところまでは、無料で、アプリケーションに取り込むところで料金が発生するようです。
現時点で対応している言語は以下のとおり、今のところ、日本語には未対応。

  • AUS, US & UK English
  • German
  • French & Canadian French
  • Dutch & Flemish
  • Italian
  • Norwegian
  • Spanish & North American Spanish
  • Swedish
  • Norwegian
  • Italian

 my-own-voice がALSや発達障害等の理由で発話に困難な人の利用を想定したアプリ Predictable で利用可能になるようです。