FLAGS

MENU

NOTICE

2008年9月12日金曜日

タイ文字が読めるようになった (mixi05-u459989-200809120637)

ミクシ内で書かれた旧おかあつ日記を紹介します。
タイ文字が読めるようになった
2008年09月12日06:37
タイ文字が大分読めるようになった。 まだ新聞とかは難しいけど、VCDカラオケの字幕を読んで歌詞を覚えたり、文字しか書いて無い屋台で間違えずにきちんと注文できるようになったりした。 だんだん読めるようになってきた。

で、わかるようになればなるほど、非常に大きな問題があることに気がついた。 極めて多くのプログラムが正しくタイ語を扱うことができないのだ。 まず大体、グーグルが正しくタイ語を扱えてない。 タイ語は日本語と同じで分かち書きがない言語なのだけど、グーグルはインデックス作成時に分かち書きが全くうまくいっておらず、検索しても点で見当違いな結果ばかりがゴソゴソ出てくる。



他にもイラストレーターやファイヤーワークスは、どうも複合文字が正しく扱えないようだ。

複合文字という概念を考えたUNICODEの考案者はプログラムを組まない人だったに違いないと思う。 非常によく考えたとは思うが非常に大きな問題も生んでると思う。 西洋人にしてはよく頑張って勉強したとは思う。 だけど、実際にプログラムを組む時に直面する問題に無頓着すぎるところがあると非常によく思う。

実は、UNICODEは、ヨーロッパでも色々な問題を生んでいると聞いたことがある。 というのも、ヨーロッパでも複合文字を使うことがあるのだ。 それはウムラウトなのだけど、国によってウムラウトの書く場所が違うんだそうで、これを正しく扱えないと聞いたことがある。

日本語と中国語を同時に扱うと、点と丸の位置がおかしくなる問題はかなり有名だけど、他にも同じ種類の文字であっても日本語と中国語で書き方が違う文字と言うのは色々あるらしく、これらを正しく扱うことはできない。

(むかしある頭が硬いある人にそんなことはないって強情張られたことがある。 彼はテキスト中のある領域が何語なのかを別に管理すれば問題は解決するのだからいいじゃないか、といった。 だけど、この問題っていうのは、UNICODEという文字体系の中でこれを解決できない=つまり中国語・日本語まじりのUNICODEテキストファイルをメモ帳で開くと必ず表示がおかしくなる、ということを言っているわけで、それは本当はUNICODEのレベルで解決すべき問題のはずだ、ということを言っている。 彼が言うところも間違いではないのだが、彼は非常に頭が硬い。)

この複合文字の処理は非常に難しい。これらを全てのプログラマが正しく理解して処理しろというのだろうか。 そんなの絶対にムリなのだ。 結果的に世界中にUNICODEの扱いが正しくないプログラムが満ち溢れてる。


コメント一覧
二胡niko♡プン   2008年09月12日 06:59
ちょっとだけ読めるようになったけど~
まだまだです~(^^;
竹風鈴   2008年09月12日 09:44
世界各地の膨大な数の民族言語に固有文字。それらの概念や事情に即したプログラミング・・ちょっと気が遠くなりますね。

タイ文字読めるようになりたい。私「鶏のコ」と「水牛のコ」と「葉っぱのポ」だけ読めます。あ、あと「バーツ」ね(笑)。
 
出展 2008年09月12日06:37 『タイ文字が読めるようになった』

著者オカアツシについて


小学生の頃からプログラミングが趣味。都内でジャズギタリストからプログラマに転身。プログラマをやめて、ラオス国境周辺で語学武者修行。12年に渡る辺境での放浪生活から生還し、都内でジャズギタリストとしてリベンジ中 ─── そういう僕が気付いた『言語と音楽』の不思議な関係についてご紹介します。

特技は、即興演奏・作曲家・エッセイスト・言語研究者・コンピュータープログラマ・話せる言語・ラオ語・タイ語(東北イサーン方言)・中国語・英語/使えるシステム/PostgreSQL 15 / React.js / Node.js 等々




おかあつ日記メニューバーをリセット


©2022 オカアツシ ALL RIGHT RESERVED