bes形式の点字データをユニコード点字のテキストデータに変換するスクリプト

 @brlat さんが BES形式の点字データをユニコード点字のテキストデータやマークダウン記法のテキストデータに変換するスクリプトを公開しています。

 IBM由来のBES形式はこれまたIBMのてんやく広場由来のサピエ図書館で採用されているため、日本の点字データとしては幅広く使用されている形式ですが、点字はすでにUnicodeで登録されており(参考 :Unicode点字と点字フォーマットPEF(Portable Embosser Format))、Unicode点字も様々な環境でもすで対応はしているようです。ユニコード点字が活用されば、BES形式の点字データ以上に非常に幅広い環境で利用できるようになると思いますので、BES形式からユニコード点字に橋渡しするスクリプトの存在はとても貴重なのではないかと思います。

ためしてみた

 ためしに国立国会図書館が公開している「国立国会図書館の障害者図書館協力」パンフレットのBES形式版(以下)でユニコード点字のプレーンテキストに変換するスクリプトを試してみました。マークダウン記法のスクリプトも今度試してみたいですね。

元データ

[点字版]「国立国会図書館の障害者図書館協力サービス」パンフレット(BES: 14KB)

アウトプット(一部のみ抜粋)

 全文掲載すると長くなりますので、一部のみ抜粋した形で掲載します。なお、Unicode点字はUnicode点字変換などでひらがな文字に変換することもできます。

⠪⠩⠓⠝ ⠪⠂⠡⠃ ⠞⠈⠺⠡⠴⠎
⠈⠺⠒⠐⠡⠃⠈⠱ ⠞⠈⠺⠡⠴ ⠈⠪⠒⠈⠚⠩
⠶⠟⠴⠐⠳⠐⠥⠴⠶
⠼⠃⠚⠁⠓⠏⠴ ⠼⠋⠐⠡⠝
⠪⠩⠓⠝ ⠪⠂⠡⠃ ⠞⠈⠺⠡⠴
⠾⠩⠐⠳ ⠼⠁
⠾⠩⠐⠳
⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒
⠈⠺⠒⠐⠡⠃⠈⠱⠽⠫ ⠳⠈⠚⠒⠎ ⠞⠒⠐⠪⠒
⠫⠴⠱⠩ ⠱⠒⠐⠧⠹ ⠤⠪⠩⠓⠝ ⠪⠂⠡⠃
⠞⠈⠺⠡⠴ ⠱⠒⠗ ⠰⠤⠈⠺⠒⠐⠡⠃⠈⠱⠽⠫
⠳⠈⠚⠒ ⠫⠴⠱⠩⠤⠆⠤ ⠂⠂⠂⠂⠂⠂⠂⠂⠂ ⠼⠁
⠳⠡⠩ ⠈⠺⠒⠐⠡⠃⠈⠱ ⠞⠒⠜⠒ ⠐⠟⠒⠕⠎
⠈⠹⠒⠈⠹⠒ ⠊⠜⠐⠧ ⠺⠒⠳⠴ ⠱⠒⠐⠧⠹ ⠼⠉
⠈⠺⠒⠐⠡⠃⠈⠱⠽⠫ ⠳⠈⠚⠒⠎ ⠈⠺⠳⠐
⠈⠺⠐⠺⠒ ⠘⠺⠒⠮⠒⠎ ⠈⠹⠒⠈⠹⠒ ⠊⠜⠐⠧
⠟⠃⠈⠪⠒⠶⠟⠴⠐⠳ ⠞⠈⠺⠐ ⠚⠩⠊⠴ ⠞⠈⠺
⠐⠻⠴⠪⠩ ⠺⠒⠐⠪⠒ ⠾⠩⠚⠩⠶ ⠂⠂⠂⠂ ⠼⠊
⠐⠡⠩⠘⠹⠝ ⠐⠭⠴⠫⠴ ⠚⠩⠊⠴ ⠞⠈⠺⠎
⠻⠃⠱⠩ ⠊⠜⠐⠧ ⠡⠳⠐⠕⠳⠶⠻⠴⠾⠴⠻⠃⠎
⠕⠡⠃ ⠐⠡⠩⠘⠹⠝ ⠐⠭⠴⠫⠴⠔ ⠚⠩⠊⠴
⠞⠈⠺⠞ ⠳⠟ ⠓⠜⠒ ⠐⠟⠣⠙⠶ ⠂⠂⠂⠂ ⠼⠁⠙
⠺⠎⠕ ⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂ ⠼⠃⠚
⠾⠩⠐⠳ ⠼⠃
⠪⠩⠓⠝ ⠪⠂⠡⠃ ⠞⠈⠺⠡⠴ ⠮⠒⠽ ⠠⠯⠒⠐⠳⠎
⠐⠪⠁⠴⠅⠃ ⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂ ⠼⠃⠉
⠪⠩⠓⠝ ⠪⠂⠡⠃ ⠞⠈⠺⠡⠴⠎ ⠈⠺⠒⠐⠡⠃⠈⠱
⠞⠈⠺⠡⠴ ⠈⠪⠒⠈⠚⠩ ⠐⠳⠘⠪⠒⠎ ⠁⠬⠷
⠂⠂⠂⠂⠂⠂⠂⠂⠂⠂ ⠼⠃⠑
⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒
⠖⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠲
⠪⠩⠓⠝ ⠪⠂⠡⠃ ⠞⠈⠺⠡⠴⠄⠰ ⠈⠺⠒⠐⠡⠃⠈⠱
⠱⠒⠐⠧⠹⠔ ⠐⠳⠂⠳ ⠳⠟ ⠃⠙ ⠡⠩⠈⠹ ⠞⠈⠺⠡⠴⠇
⠕⠃⠳⠟⠰ ⠱⠵⠐⠱⠵⠅ ⠳⠋⠴⠐ ⠈⠪⠒⠈⠚⠩ ⠘⠪⠒⠽⠔
⠊⠪⠅⠂⠟ ⠃⠵⠹⠲
⠓⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠒⠚
⠼⠁

関連エントリ