bes形式の点字データをユニコード点字のテキストデータに変換するスクリプト

 @brlat さんが BES形式の点字データをユニコード点字のテキストデータやマークダウン記法のテキストデータに変換するスクリプトを公開しています。

 IBM由来のBES形式はこれまたIBMのてんやく広場由来のサピエ図書館で採用されているため、日本の点字データとしては幅広く使用されている形式ですが、点字はすでにUnicodeで登録されており(参考 :Unicode点字と点字フォーマットPEF(Portable Embosser Format))、Unicode点字も様々な環境でもすで対応はしているようです。ユニコード点字が活用されば、BES形式の点字データ以上に非常に幅広い環境で利用できるようになると思いますので、BES形式からユニコード点字に橋渡しするスクリプトの存在はとても貴重なのではないかと思います。

ためしてみた

 ためしに国立国会図書館が公開している「国立国会図書館の障害者図書館協力」パンフレットのBES形式版(以下)でユニコード点字のプレーンテキストに変換するスクリプトを試してみました。マークダウン記法のスクリプトも今度試してみたいですね。

元データ

[点字版]「国立国会図書館の障害者図書館協力サービス」パンフレット(BES: 14KB)

アウトプット(一部のみ抜粋)

 全文掲載すると長くなりますので、一部のみ抜粋した形で掲載します。なお、Unicode点字はUnicode点字変換などでひらがな文字に変換することもできます。

⠪⠩⠓⠝ ⠪⠂⠡⠃ ⠞⠈⠺⠡⠴⠎
⠈⠺⠒⠐⠡⠃⠈⠱ ⠞⠈⠺⠡⠴ ⠈⠪⠒⠈⠚⠩
⠶⠟⠴⠐⠳⠐⠥⠴⠶

⠼⠃⠚⠁⠓⠏⠴ ⠼⠋⠐⠡⠝

⠪⠩⠓⠝ ⠪⠂⠡⠃ ⠞⠈⠺⠡⠴

⠾⠩⠐⠳ ⠼⠁
⠾⠩⠐⠳
⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒
⠈⠺⠒⠐⠡⠃⠈⠱⠽⠫ ⠳⠈⠚⠒⠎ ⠞⠒⠐⠪⠒
⠫⠴⠱⠩ ⠱⠒⠐⠧⠹ ⠤⠪⠩⠓⠝ ⠪⠂⠡⠃
⠞⠈⠺⠡⠴ ⠱⠒⠗ ⠰⠤⠈⠺⠒⠐⠡⠃⠈⠱⠽⠫
⠳⠈⠚⠒ ⠫⠴⠱⠩⠤⠆⠤ ⠂⠂⠂⠂⠂⠂⠂⠂⠂ ⠼⠁
⠳⠡⠩ ⠈⠺⠒⠐⠡⠃⠈⠱ ⠞⠒⠜⠒ ⠐⠟⠒⠕⠎
⠈⠹⠒⠈⠹⠒ ⠊⠜⠐⠧ ⠺⠒⠳⠴ ⠱⠒⠐⠧⠹ ⠼⠉
⠈⠺⠒⠐⠡⠃⠈⠱⠽⠫ ⠳⠈⠚⠒⠎ ⠈⠺⠳⠐
⠈⠺⠐⠺⠒ ⠘⠺⠒⠮⠒⠎ ⠈⠹⠒⠈⠹⠒ ⠊⠜⠐⠧
⠟⠃⠈⠪⠒⠶⠟⠴⠐⠳ ⠞⠈⠺⠐ ⠚⠩⠊⠴ ⠞⠈⠺
⠐⠻⠴⠪⠩ ⠺⠒⠐⠪⠒ ⠾⠩⠚⠩⠶ ⠂⠂⠂⠂ ⠼⠊
⠐⠡⠩⠘⠹⠝ ⠐⠭⠴⠫⠴ ⠚⠩⠊⠴ ⠞⠈⠺⠎
⠻⠃⠱⠩ ⠊⠜⠐⠧ ⠡⠳⠐⠕⠳⠶⠻⠴⠾⠴⠻⠃⠎
⠕⠡⠃ ⠐⠡⠩⠘⠹⠝ ⠐⠭⠴⠫⠴⠔ ⠚⠩⠊⠴
⠞⠈⠺⠞ ⠳⠟ ⠓⠜⠒ ⠐⠟⠣⠙⠶ ⠂⠂⠂⠂ ⠼⠁⠙
⠺⠎⠕ ⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂ ⠼⠃⠚
⠾⠩⠐⠳ ⠼⠃
⠪⠩⠓⠝ ⠪⠂⠡⠃ ⠞⠈⠺⠡⠴ ⠮⠒⠽ ⠠⠯⠒⠐⠳⠎
⠐⠪⠁⠴⠅⠃ ⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂ ⠼⠃⠉
⠪⠩⠓⠝ ⠪⠂⠡⠃ ⠞⠈⠺⠡⠴⠎ ⠈⠺⠒⠐⠡⠃⠈⠱
⠞⠈⠺⠡⠴ ⠈⠪⠒⠈⠚⠩ ⠐⠳⠘⠪⠒⠎ ⠁⠬⠷
⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂ ⠼⠃⠑
⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒

⠖⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠲
⠪⠩⠓⠝ ⠪⠂⠡⠃ ⠞⠈⠺⠡⠴⠄⠰ ⠈⠺⠒⠐⠡⠃⠈⠱
⠱⠒⠐⠧⠹⠔ ⠐⠳⠂⠳ ⠳⠟ ⠃⠙ ⠡⠩⠈⠹ ⠞⠈⠺⠡⠴⠇
⠕⠃⠳⠟⠰ ⠱⠵⠐⠱⠵⠅ ⠳⠋⠴⠐ ⠈⠪⠒⠈⠚⠩ ⠘⠪⠒⠽⠔
⠊⠪⠅⠂⠟ ⠃⠵⠹⠲
⠓⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠚
⠼⠁

関連エントリ

Web Annotation クラスタ的に IIIF対応について思うこと

 Web Annotation クラスタ、というほどではないけど、デジタルアーカイブの規格 IIIF(International Image Interoperability Framework)について。 

 IIIFは、すでに図書館関係者の間で注目されており、Web上にもそれを解説する記事(例えば、今、まさに広まりつつある国際的なデジタルアーカイブの規格、IIIFのご紹介 – digitalnagasakiのブログ)もたくさんありますし、日本における実装例(日本の図書館等におけるIIIF対応デジタルアーカイブ一覧 参照)も増えてきています。

 デジタルアーカイブというと、コンテンツとビューワーが一体となって提供されていることが多い、というが、画像系のデジタルアーカイブではほぼ全てがそれではないかと思うけど、IIIFに対応すると、コンテンツとビュワーを分離することができるはず。デジタルアーカイブの提供者は、現在はコンテンツの提供とビュワーのメンテまで面倒をみなければなりませんが、ビュワーはビュワーベンダーや開発コミュニティに委ねて、自身はコンテンツの拡充やメンテの労力を注ぐ、というところまでいければ、理想形なのかもしれない。コンテンツとビュワーを切り離せれば、様々なビュワーベンダの参入を期待できるし、ユーザー側にとっても、自分が求める機能を備えたビュワーで複数のデジタルアーカイブからコンテンツをダウンロードして利用することができる(現在の実装はわかりませんが)。

 また、 IIIF に対応するということは、アノテーション部分に W3C の Web Annotation (正確には、前身の Open Annotiation ですが、ここでは、広義の意味で Web Annotation という)を取り込むことを意味します。それは、デジタルアーカイブのアノテーションの仕様が Web Annotation によって標準化することにもつながる。アノテーションが標準化できれば、参照しあったりすることで、アノテーションによって他のウェブアーカイブと結びつけることができるようになる。さらに重要なことは、 アノテーションを付与するということは、コンテンツの任意の箇所を指定できることが大前提です。つまり、デジタルアーカイブの参照方法の標準化も進むということです。Web Anootation によるアノテーションの標準化が進むことで、コンテンツの任意の特定の範囲を URL+フラグメント識別子で一意に指定できる方式の標準化も進むはずです。学術分野におけるデジタルアーカイブの活用において、参照方法の標準化が進むこと以上重要なことはない。現在の実装はそこまでいっていない気もするけど、将来的にその方向に進むことを期待しています。

 IIIF は、 Web Annotation (Open Annotation) の実用レベルまで最も進んだ実装例になっているので、目が離せなくなってきた。他のデジタルコンテンツへのへの波及も。なお、Web Annotation (Open Annotation) については、以下を参照。

 現行の IIIF Presentation API 2.0 では、アノテーションは、 Open Annotation Data Model を採用していますが、Presentation API 3.0 では、後継の Web Annotation Data Model に移行するようです。すでにW3C勧告になっていますしね。

 IIIF は、その名の通り、現行の仕様でhs、^_^画像データを対象としています。しかし、昨年の京大でのIIIFの講演会でIIIFの中の人に聞いた話では、IIIF Presentation API 3.0では、画像に加え、動画、音声、テキストにも対応するとのこと。動画と音声は、Canvasにタイムラインというオブジェクトを加えることで対応するらしい。

 対象をそこまで広げると複数のリソースをmanifestを使用して1つに集約しようとしている点といい、W3Cで検討されているWeb Publications (WP) と要件が、外形的には結構かぶってくる気がする。

 
 IIIF と WP は、たぶん動きもベクトルもまったく異なっていて、たまたま重なってしまったということなのだろうけど、WP はパッケージフォーマットも検討しているようだし、ブラウザでの対応を目指しているようだし(検討にブラウザベンダが参加してないけど)、重ねられるところは重ねられるとよいのかもしれない( WP の動向も見通せないところがあるけど)。