宮粼あおい問題(文字化け)

news.livedoor.com

この記事で「石崎弁護士」という方が出てくるのだが、「石崎」「石粼」という表記が混在してる。 「粼」(隣のつくりに<<)は宮﨑あおいの「﨑」(崎の大の部分が立)とか「嵜」とはまた別の「崎」の異体字ではという話もあったんだけど、どうも文字化けくささが匂ったので調べてみた。

まずは「粼」って読めないので、卓上漢和辞典でひいてみた。

【粼】 リン lín

粼粼は、㋑水が清くすきとおって石の見えるさま。「白石粼粼」㋺さえた月の光のさま。「月粼粼」

[国]せせらぎ。水が浅い瀬を流れる所。また、その音の形容。

諸橋轍次(他)(1980-1989)『大修館新漢和辞典』大修館書店.

川崎の崎は「みさき」という意味だから、水という辺りは関係なくもないけど、ちょっと合わない気がする。

次に、グーグル世代なので「粼」でググってみた。するとヒットしたのがはてなキーワード

d.hatena.ne.jp

この記事では粼と﨑が混在しているので、いよいよ怪しくなってきた。 よく見るとこのページの文字エンコーディングEUC-JPと指定されている。また、URLがEUC-JPっぽい感じがする。

結論

これらをヒントにしてEUC-JP系を調べてみたらやはり、以下に示す通り文字化けだと‘分かった。

Unicode JIS X 0213 EUC-JIS-2004 CP51932
U+FA11 1-47-82 0xCFF2 0xF9F5
U+7CBC 1-89-85 0xF9F5 0x8FD3B8

﨑と粼で同じ0xF9F5というコードが出現してることに注目してほしい。 詳しい経緯は省くんだけど俗にEUC-JPと雑に呼んでるエンコーディング方式も実は特にWindowsとの絡みで厳密には複数存在し、その解釈の違い(あるいは設計ミス)によって文字化けが起こる。

今回の記事の場合は例えば、CP51932で作成した「﨑(0xF9F5)」の記事を登録する際に、EUC-JIS-2004で「粼(0xF9F5)」と解釈されてUTF-8に変換され、登録されたのかもしれない。

こういう話は以前に調べて雑にまとめた 『*[文字コード]』の検索結果 - ooharakの日記