タイ文字が読めるようになった
2008年09月12日06:37
タイ文字が大分読めるようになった。 まだ新聞とかは難しいけど、VCDカラオケの字幕を読んで歌詞を覚えたり、文字しか書いて無い屋台で間違えずにきちんと注文できるようになったりした。 だんだん読めるようになってきた。
で、わかるようになればなるほど、非常に大きな問題があることに気がついた。 極めて多くのプログラムが正しくタイ語を扱うことができないのだ。 まず大体、グーグルが正しくタイ語を扱えてない。 タイ語は日本語と同じで分かち書きがない言語なのだけど、グーグルはインデックス作成時に分かち書きが全くうまくいっておらず、検索しても点で見当違いな結果ばかりがゴソゴソ出てくる。
◇
他にもイラストレーターやファイヤーワークスは、どうも複合文字が正しく扱えないようだ。
複合文字という概念を考えたUNICODEの考案者はプログラムを組まない人だったに違いないと思う。 非常によく考えたとは思うが非常に大きな問題も生んでると思う。 西洋人にしてはよく頑張って勉強したとは思う。 だけど、実際にプログラムを組む時に直面する問題に無頓着すぎるところがあると非常によく思う。
実は、UNICODEは、ヨーロッパでも色々な問題を生んでいると聞いたことがある。 というのも、ヨーロッパでも複合文字を使うことがあるのだ。 それはウムラウトなのだけど、国によってウムラウトの書く場所が違うんだそうで、これを正しく扱えないと聞いたことがある。
日本語と中国語を同時に扱うと、点と丸の位置がおかしくなる問題はかなり有名だけど、他にも同じ種類の文字であっても日本語と中国語で書き方が違う文字と言うのは色々あるらしく、これらを正しく扱うことはできない。
(むかしある頭が硬いある人にそんなことはないって強情張られたことがある。 彼はテキスト中のある領域が何語なのかを別に管理すれば問題は解決するのだからいいじゃないか、といった。 だけど、この問題っていうのは、UNICODEという文字体系の中でこれを解決できない=つまり中国語・日本語まじりのUNICODEテキストファイルをメモ帳で開くと必ず表示がおかしくなる、ということを言っているわけで、それは本当はUNICODEのレベルで解決すべき問題のはずだ、ということを言っている。 彼が言うところも間違いではないのだが、彼は非常に頭が硬い。)
この複合文字の処理は非常に難しい。これらを全てのプログラマが正しく理解して処理しろというのだろうか。 そんなの絶対にムリなのだ。 結果的に世界中にUNICODEの扱いが正しくないプログラムが満ち溢れてる。
で、わかるようになればなるほど、非常に大きな問題があることに気がついた。 極めて多くのプログラムが正しくタイ語を扱うことができないのだ。 まず大体、グーグルが正しくタイ語を扱えてない。 タイ語は日本語と同じで分かち書きがない言語なのだけど、グーグルはインデックス作成時に分かち書きが全くうまくいっておらず、検索しても点で見当違いな結果ばかりがゴソゴソ出てくる。
◇
他にもイラストレーターやファイヤーワークスは、どうも複合文字が正しく扱えないようだ。
複合文字という概念を考えたUNICODEの考案者はプログラムを組まない人だったに違いないと思う。 非常によく考えたとは思うが非常に大きな問題も生んでると思う。 西洋人にしてはよく頑張って勉強したとは思う。 だけど、実際にプログラムを組む時に直面する問題に無頓着すぎるところがあると非常によく思う。
実は、UNICODEは、ヨーロッパでも色々な問題を生んでいると聞いたことがある。 というのも、ヨーロッパでも複合文字を使うことがあるのだ。 それはウムラウトなのだけど、国によってウムラウトの書く場所が違うんだそうで、これを正しく扱えないと聞いたことがある。
日本語と中国語を同時に扱うと、点と丸の位置がおかしくなる問題はかなり有名だけど、他にも同じ種類の文字であっても日本語と中国語で書き方が違う文字と言うのは色々あるらしく、これらを正しく扱うことはできない。
(むかしある頭が硬いある人にそんなことはないって強情張られたことがある。 彼はテキスト中のある領域が何語なのかを別に管理すれば問題は解決するのだからいいじゃないか、といった。 だけど、この問題っていうのは、UNICODEという文字体系の中でこれを解決できない=つまり中国語・日本語まじりのUNICODEテキストファイルをメモ帳で開くと必ず表示がおかしくなる、ということを言っているわけで、それは本当はUNICODEのレベルで解決すべき問題のはずだ、ということを言っている。 彼が言うところも間違いではないのだが、彼は非常に頭が硬い。)
この複合文字の処理は非常に難しい。これらを全てのプログラマが正しく理解して処理しろというのだろうか。 そんなの絶対にムリなのだ。 結果的に世界中にUNICODEの扱いが正しくないプログラムが満ち溢れてる。
コメント一覧
二胡niko♡プン 2008年09月12日 06:59
ちょっとだけ読めるようになったけど~
まだまだです~(^^;
まだまだです~(^^;
竹風鈴 2008年09月12日 09:44
世界各地の膨大な数の民族言語に固有文字。それらの概念や事情に即したプログラミング・・ちょっと気が遠くなりますね。
タイ文字読めるようになりたい。私「鶏のコ」と「水牛のコ」と「葉っぱのポ」だけ読めます。あ、あと「バーツ」ね(笑)。
タイ文字読めるようになりたい。私「鶏のコ」と「水牛のコ」と「葉っぱのポ」だけ読めます。あ、あと「バーツ」ね(笑)。