AIでEPUBの画像の代替テキストを自動生成してみる、の発表(DPUB Summit 2019)

 6月にフランスで開催された電子出版の、内容的にはEPUBとアクセシビリティのイベントDigital Publishing Summit 2019 – EDRLabの動画とスライドが公開されています。

 少しずつ見ているのですが、Session 2の”New technology trends in the publishing industry”でのGregorio PELLEGRINO 氏のGoogle や Micorsoft のAIのAPIを活用して画像の代替テキストの自動生成を試みた”Improving automatic image description in EPUB using Artificial Intelligence”が現時点での、一般に利用できるこの手のAIを活用した代替テキストの自動生成の状況が分かりやすく紹介されています。

手順は、以下のようです。

  1. Google Cloud AutoML Visionでカテゴライズ
  2. カテゴリによってGoogle Cloud Vision APIMicrosoft Computer Visionのどちら得意そうな方に振り分けて内容説明のテキスト生成<

写真やカバー、ロゴ等の比較的シンプルな画像だったということもあるようですが、1のカテゴライズの成功率が42%、2の説明テキスト生成の成功率が50%だったとのことで、個人的な印象ですが、画像を読み込んでの自動生成ということを考えると、そこそこ高いのではと感じました。画像が挿入される前後の本文のコンテキストによって求められる代替テキストの内容も変わるので、そこまで求めたら、まぁ・・・厳しそうではありますが。
日本語だとどうなのか、学術書に掲載されるような複雑な図やグラフなどの画像だとどうなるか、というあたり気になるところです。

Bookshare、マラケシュ条約国のAEからも30万件のデータを集める

管理するアクセシブルな図書コンテンツのタイトルが100万件を超えたというプレスリリースを、Bookshare が出しました。Bookshare はプリントディスアビリティのある人を対象とした世界最大の電子図書館です。サピエの世界版といえば、分かる人にはわかりやすいかも。

Bookshare は自身で、70万件強のデータを作成するなり、出版社から提供をうける形で集めていますが、それに加えて30万件ほどをマラケシュ条約締約国の図書館等に呼びかけて集めたらしいです。

上のプレスリリースで名前が上がっていますが、プリントディアビリティのある人へのサービスとして有名な以下のサービスが書誌とデータを提供とのこと。これらの図書館サービスの蔵書(全てかわかりませんが)がカウントされたのですね。

マラケシュ条約締約国の図書館等で製作されたアクセシブルな図書コンテンツは、WIPO の Accessible Books Consortium (ABC) Global Book Service で集約してこうと、WIPO や関係者が動いていますが、Booksahre が、それに近いことをやろうとしているようです。それは Bookshare が2018年にマラケシュ条約締約国向けに出した案内からも伺えるのですが、もう30万件集めたとは・・(ABC Global Book Service は40万件強)

このBookshare、ウェブアーカイブ業界におけるInternet Archiveのような、圧倒的インフラに近い存在になりそうな感じもします。一度その方向に傾くと世界中のコンテンツがそこに集約されることになるかも(それが良いことか悪いことかは現時点では判断つかないけど、ユーザー側のメリットは大きいはず。日本語のUIもちゃっと作ってしまいそう)。この10年の動向次第かな。

音声でウェブウラウザを制御するChromeアドオン LipSurf

というものがでていた。音声によって、ウェブブラウザの基本的な操作をできるというもの。複雑な操作は難しそう。機能としてはベータ版ながら日本語にも対応しているとのこと。
 なお、読み上げる機能を備えているわけではないので、これでVUIが実現するというものではない。

上のアドオンで思い出しましたが、Mozillaが同様のブラウザを開発しているという話、続報がでてこないですね。