AIでEPUBの画像の代替テキストを自動生成してみる、の発表（DPUB Summit 2019）

　6月にフランスで開催された電子出版の、内容的にはEPUBとアクセシビリティのイベントDigital Publishing Summit 2019 – EDRLabの動画とスライドが公開されています。

DPUB Summit 2019 Program – EDRLab

　少しずつ見ているのですが、Session 2の”New technology trends in the publishing industry”でのGregorio PELLEGRINO 氏のGoogle や Micorsoft のAIのAPIを活用して画像の代替テキストの自動生成を試みた”Improving automatic image description in EPUB using Artificial Intelligence”が現時点での、一般に利用できるこの手のAIを活用した代替テキストの自動生成の状況が分かりやすく紹介されています。

スライド[PPTX]

手順は、以下のようです。

Google Cloud AutoML Visionでカテゴライズ
カテゴリによってGoogle Cloud Vision APIかMicrosoft Computer Visionのどちら得意そうな方に振り分けて内容説明のテキスト生成<

写真やカバー、ロゴ等の比較的シンプルな画像だったということもあるようですが、1のカテゴライズの成功率が42%、2の説明テキスト生成の成功率が50%だったとのことで、個人的な印象ですが、画像を読み込んでの自動生成ということを考えると、そこそこ高いのではと感じました。画像が挿入される前後の本文のコンテキストによって求められる代替テキストの内容も変わるので、そこまで求めたら、まぁ・・・厳しそうではありますが。
日本語だとどうなのか、学術書に掲載されるような複雑な図やグラフなどの画像だとどうなるか、というあたり気になるところです。