bes形式の点字データをユニコード点字のテキストデータに変換するスクリプト

2018-07-16 kzakza

　@brlat さんが BES形式の点字データをユニコード点字のテキストデータやマークダウン記法のテキストデータに変換するスクリプトを公開しています。

BES形式からユニコード点字のプレーンテキストデータへの変換スクリプト
GitHub – brlat/Japanese-braille-misc-tools: 日本語点字データ、特に8点式の漢点字データ用のperlスクリプトなど
BES形式からマークダウン記法のテキストデータに変換するスクリプト
GitHub – brlat/bes-to-markdown: .bes形式の点字データをUnicode点字のmarkdownファイルに変換

　IBM由来のBES形式はこれまたIBMのてんやく広場由来のサピエ図書館で採用されているため、日本の点字データとしては幅広く使用されている形式ですが、点字はすでにUnicodeで登録されており（参考 :Unicode点字と点字フォーマットPEF(Portable Embosser Format)）、Unicode点字も様々な環境でもすで対応はしているようです。ユニコード点字が活用されば、BES形式の点字データ以上に非常に幅広い環境で利用できるようになると思いますので、BES形式からユニコード点字に橋渡しするスクリプトの存在はとても貴重なのではないかと思います。

ためしてみた

　ためしに国立国会図書館が公開している「国立国会図書館の障害者図書館協力」パンフレットのBES形式版（以下）でユニコード点字のプレーンテキストに変換するスクリプトを試してみました。マークダウン記法のスクリプトも今度試してみたいですね。

元データ

[点字版]「国立国会図書館の障害者図書館協力サービス」パンフレット（BES: 14KB）

アウトプット（一部のみ抜粋）

　全文掲載すると長くなりますので、一部のみ抜粋した形で掲載します。なお、Unicode点字はUnicode点字変換などでひらがな文字に変換することもできます。

⠪⠩⠓⠝ ⠪⠂⠡⠃ ⠞⠈⠺⠡⠴⠎
⠈⠺⠒⠐⠡⠃⠈⠱ ⠞⠈⠺⠡⠴ ⠈⠪⠒⠈⠚⠩
⠶⠟⠴⠐⠳⠐⠥⠴⠶
⠼⠃⠚⠁⠓⠏⠴ ⠼⠋⠐⠡⠝
⠪⠩⠓⠝ ⠪⠂⠡⠃ ⠞⠈⠺⠡⠴
⠾⠩⠐⠳ ⠼⠁
⠾⠩⠐⠳
⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒
⠈⠺⠒⠐⠡⠃⠈⠱⠽⠫ ⠳⠈⠚⠒⠎ ⠞⠒⠐⠪⠒
⠫⠴⠱⠩ ⠱⠒⠐⠧⠹ ⠤⠪⠩⠓⠝ ⠪⠂⠡⠃
⠞⠈⠺⠡⠴ ⠱⠒⠗ ⠰⠤⠈⠺⠒⠐⠡⠃⠈⠱⠽⠫
⠳⠈⠚⠒ ⠫⠴⠱⠩⠤⠆⠤ ⠂⠂⠂⠂⠂⠂⠂⠂⠂ ⠼⠁
⠳⠡⠩ ⠈⠺⠒⠐⠡⠃⠈⠱ ⠞⠒⠜⠒ ⠐⠟⠒⠕⠎
⠈⠹⠒⠈⠹⠒ ⠊⠜⠐⠧ ⠺⠒⠳⠴ ⠱⠒⠐⠧⠹ ⠼⠉
⠈⠺⠒⠐⠡⠃⠈⠱⠽⠫ ⠳⠈⠚⠒⠎ ⠈⠺⠳⠐
⠈⠺⠐⠺⠒ ⠘⠺⠒⠮⠒⠎ ⠈⠹⠒⠈⠹⠒ ⠊⠜⠐⠧
⠟⠃⠈⠪⠒⠶⠟⠴⠐⠳ ⠞⠈⠺⠐ ⠚⠩⠊⠴ ⠞⠈⠺
⠐⠻⠴⠪⠩ ⠺⠒⠐⠪⠒ ⠾⠩⠚⠩⠶ ⠂⠂⠂⠂ ⠼⠊
⠐⠡⠩⠘⠹⠝ ⠐⠭⠴⠫⠴ ⠚⠩⠊⠴ ⠞⠈⠺⠎
⠻⠃⠱⠩ ⠊⠜⠐⠧ ⠡⠳⠐⠕⠳⠶⠻⠴⠾⠴⠻⠃⠎
⠕⠡⠃ ⠐⠡⠩⠘⠹⠝ ⠐⠭⠴⠫⠴⠔ ⠚⠩⠊⠴
⠞⠈⠺⠞ ⠳⠟ ⠓⠜⠒ ⠐⠟⠣⠙⠶ ⠂⠂⠂⠂ ⠼⠁⠙
⠺⠎⠕ ⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂ ⠼⠃⠚
⠾⠩⠐⠳ ⠼⠃
⠪⠩⠓⠝ ⠪⠂⠡⠃ ⠞⠈⠺⠡⠴ ⠮⠒⠽ ⠠⠯⠒⠐⠳⠎
⠐⠪⠁⠴⠅⠃ ⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂ ⠼⠃⠉
⠪⠩⠓⠝ ⠪⠂⠡⠃ ⠞⠈⠺⠡⠴⠎ ⠈⠺⠒⠐⠡⠃⠈⠱
⠞⠈⠺⠡⠴ ⠈⠪⠒⠈⠚⠩ ⠐⠳⠘⠪⠒⠎ ⠁⠬⠷
⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂ ⠼⠃⠑
⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒
⠖⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠲
⠪⠩⠓⠝ ⠪⠂⠡⠃ ⠞⠈⠺⠡⠴⠄⠰ ⠈⠺⠒⠐⠡⠃⠈⠱
⠱⠒⠐⠧⠹⠔ ⠐⠳⠂⠳ ⠳⠟ ⠃⠙ ⠡⠩⠈⠹ ⠞⠈⠺⠡⠴⠇
⠕⠃⠳⠟⠰ ⠱⠵⠐⠱⠵⠅ ⠳⠋⠴⠐ ⠈⠪⠒⠈⠚⠩ ⠘⠪⠒⠽⠔
⠊⠪⠅⠂⠟ ⠃⠵⠹⠲
⠓⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠚
⠼⠁

Web Annotation クラスタ的に IIIF対応について思うこと

2018-05-20 kzakza

　Web Annotation クラスタ、というほどではないけど、デジタルアーカイブの規格 IIIF（International Image Interoperability Framework）について。　
　IIIFは、すでに図書館関係者の間で注目されており、Web上にもそれを解説する記事（例えば、今、まさに広まりつつある国際的なデジタルアーカイブの規格、IIIFのご紹介 – digitalnagasakiのブログ）もたくさんありますし、日本における実装例（日本の図書館等におけるIIIF対応デジタルアーカイブ一覧参照）も増えてきています。
　デジタルアーカイブというと、コンテンツとビューワーが一体となって提供されていることが多い、というが、画像系のデジタルアーカイブではほぼ全てがそれではないかと思うけど、IIIFに対応すると、コンテンツとビュワーを分離することができるはず。デジタルアーカイブの提供者は、現在はコンテンツの提供とビュワーのメンテまで面倒をみなければなりませんが、ビュワーはビュワーベンダーや開発コミュニティに委ねて、自身はコンテンツの拡充やメンテの労力を注ぐ、というところまでいければ、理想形なのかもしれない。コンテンツとビュワーを切り離せれば、様々なビュワーベンダの参入を期待できるし、ユーザー側にとっても、自分が求める機能を備えたビュワーで複数のデジタルアーカイブからコンテンツをダウンロードして利用することができる（現在の実装はわかりませんが）。
　また、　IIIF に対応するということは、アノテーション部分に W3C の Web Annotation （正確には、前身の Open Annotiation ですが、ここでは、広義の意味で Web Annotation という）を取り込むことを意味します。それは、デジタルアーカイブのアノテーションの仕様が Web Annotation によって標準化することにもつながる。アノテーションが標準化できれば、参照しあったりすることで、アノテーションによって他のウェブアーカイブと結びつけることができるようになる。さらに重要なことは、アノテーションを付与するということは、コンテンツの任意の箇所を指定できることが大前提です。つまり、デジタルアーカイブの参照方法の標準化も進むということです。Web Anootation によるアノテーションの標準化が進むことで、コンテンツの任意の特定の範囲を URL+フラグメント識別子で一意に指定できる方式の標準化も進むはずです。学術分野におけるデジタルアーカイブの活用において、参照方法の標準化が進むこと以上重要なことはない。現在の実装はそこまでいっていない気もするけど、将来的にその方向に進むことを期待しています。
　IIIF は、 Web Annotation （Open Annotation）の実用レベルまで最も進んだ実装例になっているので、目が離せなくなってきた。他のデジタルコンテンツへのへの波及も。なお、Web Annotation （Open Annotation）については、以下を参照。

　現行の IIIF Presentation API 2.0 では、アノテーションは、 Open Annotation Data Model を採用していますが、Presentation API 3.0 では、後継の Web Annotation Data Model に移行するようです。すでにW3C勧告になっていますしね。
　IIIF は、その名の通り、現行の仕様では画像データを対象としています。しかし、昨年の京大でのIIIFの講演会でIIIFの中の人に聞いた話では、IIIF　Presentation API 3.0では、画像に加え、動画、音声、テキストにも対応するとのこと。動画と音声は、Canvasにタイムラインというオブジェクトを加えることで対応するらしい。
　対象をそこまで広げると複数のリソースをmanifestを使用して１つに集約しようとしている点といい、W3Cで検討されているWeb Publications (WP) と要件が、外形的には結構かぶってくる気がする。

WebとEPUB（そして、その先にある出版）を繋ぐものとなるか、”Web Publications” #html5jpub

　
　IIIF と WP は、たぶん動きもベクトルもまったく異なっていて、たまたま重なってしまったということなのだろうけど、WP はパッケージフォーマットも検討しているようだし、ブラウザでの対応を目指しているようだし（検討にブラウザベンダが参加してないけど）、重ねられるところは重ねられるとよいのかもしれない（ WP の動向も見通せないところがあるけど）。

アクセシビリティの祭典 2018 個人的なふりかえり

2018-05-19 kzakza

　アクセシビリティの祭典2018に参加したので、ふりかえる。当日の様子は、公開されているアーカイブ動画やこのイベントのツィート（アクセシビリティの祭典 2018 #accfes – Togetter ）をみれば、よくわかると思うので、省略。
　本当は全日参加する予定だったけど、当日、別の用事が入ってしまったので最後のほうの３時間強だけの参加になってしまった。それでも、非常に濃厚だったので、この3時間だけでもかなり充足感はあった。会場について早々にイスカンダルからの通信がはじまったので、会場の雰囲気にまだ慣れていない私は、度肝を抜かれた、というか、とんでもないところにきてしまった、感があった。会場に向かいながら、流れてくる #accfes のツィートを確認していたけどと、会場に着く前には、視覚障害、肢体不自由、聴覚障害のある方がいろいろな方法や方式で情報を入手し、発信される現況のセッションなどあったりして、直接、その場でその話を見ていれば、かなりの衝撃を受けたのあろうなと思う。そういう機会を逃してしまったことが本当に悔やまれる。全日参加していたら、刺激受けすぎてヘロヘロになってしまっただろうか。
　私は、どちらかというと、アクセシビリティをやらなければならないという雰囲気の環境にいる（私自身の想いはともかく）。しかし、この祭典では、技術者が中心になっているイベントだから、ということもあるかと思うけど、技術的にいろいろとアクセシビリティ上の課題を解決できるようになった未来を、もっとこっちに引き寄せようとしている明るさを感じられて、そういう空気にいるだけでも元気をもらったような気持ちになった。前者と後者では、問題の捉え方も深さの点からも自ずと変わってくるはずだと思うし、その日もどう感じた。当日は間に合わなかったけど、@caztcha さんのお話（参考:発表の概要）を聞くことができていたら、その点、もっと痛感したのだろうか。
　会いたいと思っていた方の何人かには、辛うじて挨拶することができたけど、ほとんどの方には遠くから「おおぉ、あの方があの方か」と認識できるに留まってしまった。時間がなかったという言い訳もあるけど、人見知りなので気後れしてしまった、というか、それを振り払う小さな勇気を振り絞る時間がなかったというのが正直なところ。うーん、書いていて、これが一番残念であったかもしれない。
　私は、基本的に「図書館の障害者サービス」の人間ですが、セッションの話や会場の雰囲気を感じつつ、ここで語られているアクセシビリティ、ウェブアクセシビリティについて、どのように受け止めるべきかもいろいろと考えていたりした。　
　
　私は「図書館の障害者サービス」以外に他にもいろいろなコンテキストに関わるようになっている（ような気がする）。
・点字図書館のサービス（視覚障害者への福祉としての情報提供サービス）
・大学の障害学生支援
・アクセシビリティ
・ウェブアクセシビリティ、
・インクルーシブ・・・（は、今のところない「かもしれない」けど、視野に入りつつ「あるかもしれない」）
　他の人に説明しても、「これ、一緒でしょ」と言われて、なかなか理解されなくて、確かに本質的には同じはずだし、目指すところも同じはず。実際にいろいろ重なる。しかし、重ないところもある、ような気がする（人の交流も）。先のエントリで書いた大学図書館の障害者サービスの話は、そんな例の１つ。　複数のコンテキストに関われている自分は、多分、幸せなことなのだろうとし、嬉しい悩みなのかもしれない。でも、感じるだけではだめで、それぞれのコンテキストの違いを意識して、重なるところを軸に他のコンテキストを考えないと、一方の視点から一方のコンテキストを評価するだけになってしまうので、ごにょごにょごにょ（結論が出ていない）。
　
　話が逸れてしまったけど、この祭典で感じたある種の「敗北感」は癖になりそう。来年こそは全日参加したい。
　参加できなかったセッションは、あとで観よう。

投稿者: kzakza