FLAGS

MENU

NOTICE

2005年11月14日月曜日

絵文字の表示の仕方 (mixi05-u459989-200511140019)

ミクシ内で書かれた旧おかあつ日記を紹介します。
絵文字の表示の仕方
2005年11月14日00:19
MIXIで色々と特殊な絵文字を表示できるみたいなので調べてみた。

☭ 昔の共産主義時代のロシアのシンボル?
☮ ピースマークだ!
☯ 陰陽だー!

☪☫☬これは何だろう。

㋐㋑㋒㋓㋔㋕㋖㋗㋘㋙㋚㋛㋜㋝㋞㋟㋠㋡㋢㋣㋤㋥㋦㋧㋨㋩㋪㋫㋬㋭㋮㋯㋰㋱㋲㋳㋴㋵㋶㋷㋸㋹㋺㋻㋼㋽㋾
丸付き文字だー!

☂☀☁ 天気だ!

☠ ☡ ☢ 危なさそうなマークだなー

♈♉♊♋♌♍♎♏♐♑♃♄☿

星座のマークかな でも最後の奴 水星のマークじゃなかったっけ

☾☼☽ 太陽と月?

♒♓♔♕♖♗♘♙♚♛♜♝♞♟ チェスだ!
☸ 桜田門のマーク?

㌀㌁㌂㌃㌄㌅㌆㌇㌈㌉㌊㌋㌌㌍㌎㌏㌐㌑㌒㌓㌔㌕㌖㌗㌘㌙㌚㌛
㌜㌝㌞㌟㌠㌡㌢㌣㌤㌥㌦㌧㌨㌩㌪㌫㌬㌭㌮㌯㌰㌱㌲ ㌳㌴㌵㌶
㌷㌸㌹㌺㌻㌼㌽㌾㌿㍀㍁㍂㍃㍄㍅㍆㍇㍈㍉㍊㍋㍌㍍㍎㍏㍐㍑㍒
㍓㍔㍕㍖㍗

... 単位が沢山!!

㍼㍽㍾㍻ ... 年号だ!

㍿ ... 株式会社だ!

☹☺☻ ... 顔だ!
♨ ... 温泉だ!
♩♪♫♬♭♮♯ ... 音楽記号だ!
♦♠♣♥♧♡♢♤ ... トランプのマークだ!


結構いっぱいありました。 こういう文字を文字コード表で見かけたことはあるのだが、具体的にどこにマップされてどんな仕掛けになっているのかは知りません。 今度調べてみたいと思います。

もしこの文字を使いたいときは、ここからコピーペーストするだけで、簡単に日記に使えると思います。

それに、mixiは 文字コードにEUCを使っている。 eucjis0213というコードセットがあったと思うけど、この拡張にこういう文字が含まれているのでしょうか。



コメント一覧
あび   2005年11月14日 00:44
私のTurboLinux環境では大半の文字が表示できなかった。う~ん、やはりライセンスを無視してWindows環境からMSゴシックやらMS明朝やらのフォントファイルをコピーしてくるしかねえのか?どうもこういうX-Window周りのフォントの設定というのは複雑で理解できない。
おかあつ   2005年11月14日 01:12
Shift_JIS + NEC機種依存文字 + α が CP932 通称 MS932っていうコードセットだ、というところまでは勉強しました。 丸文字なんてどこにあるのか、聞いたことも無いです。

今はどうか知りませんが、昔はLinux系では NEC機種依存文字は表示できないって言うのが定番でしたが、今では色々方法があるんじゃないかな...。

また、これはカンなんですが、UTF-8がきちんと表示できないと駄目だと思います。 UTF-8が表示できるのであれば、ひょっとしたら表示できるかも。

これ、化けますか?

1.森鷗外の石鹼(~第四水準JIS) (多分化ける)
2.森鴎外の石鹸(第一水準~第二水準JIS) (化けない)
あのい   2005年11月14日 01:12
☪ イスラムの月と星だと思う。パキスタンの国旗とかで使われてるやつ。
おかあつ   2005年11月14日 01:16
>フォントファイルをコピーしてくるしかねえのか?
フォントの形式が違うので駄目だと思います。

コンバーターをかければひょっとしたら出来るかもしれないですが、なかなか苦戦するでしょう。
おかあつ   2005年11月14日 01:43
>>annoy様

☪ ... なるほど...
☭☮☯☪ ... 世界を(一応)一通り表した記号、ってことだったんですね。
あび   2005年11月14日 02:09
森鴎外はどちらも表示できたよ。
それとX-Window環境でもTrueTypeFontは使えるはず。
このへんって調べると深いよね。
おかあつ   2005年11月14日 02:22
Webdingsが入ってないと駄目とか そういうことなのかな... ☁
おかあつ   2005年11月14日 02:56
知人からの意外なメッセージで原因判明 ...
超意外な結末 ... IE6だと表示されないのでした。
Firefoxだと表示されます。
これでわかること。annoyさんはfirefoxだったんですね。

・mixiのコードセットは eucですが、firefoxだとeucjis0213に自動的に切り替わるのかな... 謎は深まる一方...

・しかも 森鴎外の難しい方は僕のieでも化けてます。
おかあつ   2005年11月14日 04:35
どうやらこいつらは Unicode Miscellaneous Symbols と呼ばれる記号らしいことが判明

http://www.unicode.org/charts/PDF/U2600.pdf

&#xxxxx; でUNICODEを直接指定したら IEでも 読めるかな... 早速実験してみます。

天気 ☀☁☂☃
星座 ♈♉♊♋♌♍♎♏♐♑♒♓
トランプ ♠♣♥♦
おかあつ   2005年11月14日 04:38
IEでは見れませんでした。

コードポイント2668 ホットスプリングを指定してみる
おかあつ   2005年11月14日 05:16
HTML上で指定されているコードセットに含まれない文字を入力すると、意味的に違う文字として扱われて文字化けが発生します。

ですが、HTML4.0以降では ☀ のような方法でISO10646で定義されているコードを直接書き出すことにより HTML上で指定されたコードセット以外の文字も表現できるようになっているようです。

これをUTF-8文字実体参照と呼ぶみたいです。
http://www.w3.org/TR/REC-html40/sgml/entities.html

ISO10646は http://www.ietf.org/rfc/rfc2279.txtここです。 取り敢えず UTF-8のコードポイントを指定しろ、という事を言っているみたいです。

ここから先は推測なのですが...

ブラウザがPOST処理を行うとき、入力文字をそのHTMLファイルで指定されたコードセットによってエンコードした上でサーバーに送信します。(昔の記憶だとこれがブラウザ間で微妙に動作が異なったような気がしますが...)

そのとき、入力した文字を指定されたコードセットでエンコードすることが出来ないときは 適宜 文字実体参照表記に変換してあげなければいけません。

IEはアップロード時この機能が正しく動いていないのか、表示するときにISO10646に正しく準拠していないのかどちらかだと思います。



いずれにせよ、IE6は色々な意味で良くない、と思います。

おかあつ   2005年11月14日 05:18
今IE6を使って試してみたら、アップロード時は正しくエンコードされて上がっているみたいです。

もっとしつこく試せばどこにバグがあるのか調べられるんだけど... もう疲れたし わかったところで意味無いしな

おかあつ   2005年11月14日 05:39
結局調べつくしました。

こんにちは (日本語)
☀☃☁ (特殊記号)
อีสาน (タイ語)

色々試した結果、IE6のUNICODEが Miscellaneous Symbols(太陽とかの特殊記号) に正しく対応していないから、ということのようです。

UTF-8でエンコードされたファイルを作成し、日本語 タイ語 記号 をそれぞれ入力し表示させると、Firefoxでは正しく表示されるのに IE6では Miscellaneous Symbols だけ俗に言う『豆腐』(※1)になって表示されていました。

(※1:白い四角が豆腐に似ているところから一部で豆腐と呼ばれていた)

こうなった背景には、恐らく標準化案が出た順番によるんでしょうけども...

... しかし IE。 ダサすぎるよ。他にもうんざりするほどバグあるし...。 おかげでHTMLの標準化がぜんぜん進まないよ。 クッキーを有効にするをチェックしたら再起動なしで有効化しよ(以下略)

IE7では こういう中途半端なところが修正されるのでしょうか。 こういうくだらないバグを熟知している人が得意になって大威張りでAJAXを叫ぶわけです。 付き合いきれません。

でも、notepad では 正しく表示して保存することが出来ますから、Microsoftが馬鹿である、と言うわけでは絶対に無いのです。 何かが絶対におかしいです。

おかあつ   2005年11月14日 05:41
ちょっと待った
森鷗外ってどうなるんだ?
おかあつ   2005年11月14日 05:46
なるほど、ここは Firefoxの方が分が悪いんだな。 IEで森鷗外って書くときちんと 文字実体参照になって送信されてる。Firefoxはそのままだった。

Firefoxは EUCでエンコードされているこのHTMLに対しては 文字実体参照に変換してアップロードしなければならないはずなのに、何もせずにそのままアップロードしているから、IEで化けるのか。 これは多分Firefoxが間違ってる。と思う。

>ブラウザがPOST処理を行うとき、入力文字をそのHTMLファイ>ルで指定されたコードセットによってエンコードした上でサ>ーバーに送信します。(昔の記憶だとこれがブラウザ間で微>妙に動作が異なったような気がしますが...)

こういうときの正しい動作って、どれなんだろう。
あのい   2005年11月14日 23:56
文字コードは歴史的な経緯やしがらみがあって難しいすね。
http://www.watch.impress.co.jp/internet/www/column/ogata/
本格的に調べるならKen Lundeの河豚本を手元に。
おかあつ   2005年11月15日 18:54
annoy様

いつも良質な資料を教えていただいて有難うございます。
この資料、かなりよさそうです。

便乗質問なんですが、POSTするときのエンコードって何が正解なんでしょう。 ダウンロードしたHTMLがEUCだったらアップロードするエンコードもEUCにするのが正解なんでしょうか。

また、&#xxxx; のときは UTF8で固定、というのが正解なんでしょうか。

# 自分で調べろって言う説、大
 
出展 2005年11月14日00:19 『絵文字の表示の仕方』

著者オカアツシについて


小学生の頃からプログラミングが趣味。都内でジャズギタリストからプログラマに転身。プログラマをやめて、ラオス国境周辺で語学武者修行。12年に渡る辺境での放浪生活から生還し、都内でジャズギタリストとしてリベンジ中 ─── そういう僕が気付いた『言語と音楽』の不思議な関係についてご紹介します。

特技は、即興演奏・作曲家・エッセイスト・言語研究者・コンピュータープログラマ・話せる言語・ラオ語・タイ語(東北イサーン方言)・中国語・英語/使えるシステム/PostgreSQL 15 / React.js / Node.js 等々




おかあつ日記メニューバーをリセット


©2022 オカアツシ ALL RIGHT RESERVED