さっき、mastodon-japan.netのアカウントで投稿する際、#性と生殖に関する健康と権利 というハッシュタグを付けた。しかし、#性と で切れてしまった。「と」と「生」の間に特殊コードが入っているかと調べたが入っていない。ただ、テキストエディタにコピーした時に「生」の文字だけ小さかった。この文字が変だった。エンコードしたら次のようなコードだった。
数値参照(10進数) :⽣
数値参照(16進数):�
JavaScript String:"\u2f63"
Unicode:U+2F63
どうやら、単独の文字ではなく部首らしい。
"康煕部首(こうきぶしゅ、英語: Kangxi Radicals)は、Unicodeの106個目のブロック。康熙字典214部首が収録されている。
このブロックの文字は、通常の漢字とは異なり、部首であることを示す場合にのみ使用できる。スキャンしたりPDFからWord変換したりした文書で混ざる場合がある。
"
康煕部首 - Wikipedia
https://ja.wikipedia.org/wiki/%E5%BA%B7%E7%85%95%E9%83%A8%E9%A6%96
今回は問題が起こったことや、テキストエディタにコピーして明らかな違いがあったので見つけることができたが、ネット上でコピペすると文字の大きさが変わるなどが無くて分からないことがある。気をつけないといけない。
コメント
康煕部首を検出して修正案を表示するコードを #Gemini に作ってもらった。
康煕部首検出と修正案 (Unicode表示付き)
https://hitorinezumi.cloudfree.jp/koukibushu.html
康煕部首を検出して修正案を表示するコード
https://html-memo-hitorinezumi.blogspot.com/2025/04/Kangxi-radical-detection.html
「CJK 部首補助」というのもあるらしい。
"Unicode には,部首関係の文字が以下の領域 (ブロック) にも登録されています.本ページは,それらの文字の一覧です.
コード範囲 ブロック名 (グループ名)
U+2E80 - U+2EFF CJK Radicals Supplemen (CJK 部首補助)
U+2F00 - U+2FDF Kangxi Radicals (康熙部首)
"
[ 康煕部首と CJK 部首補助の文字一覧 ] - Mr.XRAY
http://mrxray.on.coocan.jp/Delphi/Others/Unicode_Busyu.htm
変換してくれるサイトは既にあった。
康煕部首こうきぶしゅ PDF文字化け正常化 CJK部首補助も対応
https://ao-system.net/kangxiradical/
CJK部首補助の方を置換するにはサロゲートペアを使わざるを得ないようだが、どうするか…。サロゲートペアが含まれていると、いろいろと問題が起こりそうなんだよな…。
サロゲートペアとは?意味を分かりやすく解説 - IT用語辞典 e-Words
https://e-words.jp/w/%E3%82%B5%E3%83%AD%E3%82%B2%E3%83%BC%E3%83%88%E3%83%9A%E3%82%A2.html