康煕部首に注意

さっき、mastodon-japan.netのアカウントで投稿する際、#性と生殖に関する健康と権利 というハッシュタグを付けた。しかし、#性と で切れてしまった。「と」と「生」の間に特殊コードが入っているかと調べたが入っていない。ただ、テキストエディタにコピーした時に「生」の文字だけ小さかった。この文字が変だった。エンコードしたら次のようなコードだった。

数値参照(10進数) :⽣
数値参照(16進数):�
JavaScript String:"\u2f63"
Unicode:U+2F63

どうやら、単独の文字ではなく部首らしい。

"康煕部首(こうきぶしゅ、英語: Kangxi Radicals)は、Unicodeの106個目のブロック。康熙字典214部首が収録されている。

このブロックの文字は、通常の漢字とは異なり、部首であることを示す場合にのみ使用できる。スキャンしたりPDFからWord変換したりした文書で混ざる場合がある。
"
康煕部首 - Wikipedia
https://ja.wikipedia.org/wiki/%E5%BA%B7%E7%85%95%E9%83%A8%E9%A6%96

今回は問題が起こったことや、テキストエディタにコピーして明らかな違いがあったので見つけることができたが、ネット上でコピペすると文字の大きさが変わるなどが無くて分からないことがある。気をつけないといけない。

未分類
管理人のマストドンアカウントへのリンクなど

コメント

  1. ishii ishii より:

    康煕部首を検出して修正案を表示するコードを #Gemini に作ってもらった。

    康煕部首検出と修正案 (Unicode表示付き)
    https://hitorinezumi.cloudfree.jp/koukibushu.html

    康煕部首を検出して修正案を表示するコード
    https://html-memo-hitorinezumi.blogspot.com/2025/04/Kangxi-radical-detection.html

  2. ishii ishii より:

    「CJK 部首補助」というのもあるらしい。

    "Unicode には,部首関係の文字が以下の領域 (ブロック) にも登録されています.本ページは,それらの文字の一覧です.

    コード範囲 ブロック名 (グループ名)
    U+2E80 - U+2EFF CJK Radicals Supplemen (CJK 部首補助)
    U+2F00 - U+2FDF Kangxi Radicals (康熙部首)
    "
    [ 康煕部首と CJK 部首補助の文字一覧 ] - Mr.XRAY
    http://mrxray.on.coocan.jp/Delphi/Others/Unicode_Busyu.htm

    • ishii ishii より:

      変換してくれるサイトは既にあった。

      康煕部首こうきぶしゅ PDF文字化け正常化 CJK部首補助も対応
      https://ao-system.net/kangxiradical/

      • ishii ishii より:

        CJK部首補助の方を置換するにはサロゲートペアを使わざるを得ないようだが、どうするか…。サロゲートペアが含まれていると、いろいろと問題が起こりそうなんだよな…。

        サロゲートペアとは?意味を分かりやすく解説 - IT用語辞典 e-Words
        https://e-words.jp/w/%E3%82%B5%E3%83%AD%E3%82%B2%E3%83%BC%E3%83%88%E3%83%9A%E3%82%A2.html

        • ishii ishii より:

          CJK部首補助も検出できるように検出する文字コードを追加し、
          サロゲートペアを検出できるコードをGeminiに作ってもらい、

          サロゲートペアの検出
          https://hitorinezumi.cloudfree.jp/surrogatepair.html

          一緒にした。

          康煕部首、CJK部首補助、サロゲートペアの検出
          https://hitorinezumi.cloudfree.jp/SpecialCharacterDetection.html

          コードはこちら。

          康煕部首、CJK部首補助、サロゲートペアの検出
          https://html-memo-hitorinezumi.blogspot.com/2025/04/SpecialCharacterDetection.html

  3. ishii ishii より:

    私の記事内に康煕部首、CJK部首補助、サロゲートペアが含まれていないか、検索して確認したいのだけど、方法が分からない。「Search Regex」はインストールしてあるのだけど…。

    • ishii ishii より:

      絵文字以外のサロゲートペアを見つける検索文字列(上記「𠮟」が見つかった):[𠀋-𪚲]
      康煕部首、CJK部首補助の場合(このコメントが見つかるはず):[⺀-⿕]

      サロゲートペア - 闘うITエンジニアの覚え書き
      https://www.magata.net/memo/index.php?%A5%B5%A5%ED%A5%B2%A1%BC%A5%C8%A5%DA%A5%A2

      • ishii ishii より:

        ユニコードが5桁の絵文字の検索:[🀄-🪕]

        "UnicodeのEmojiの一覧(ユニコードのえもじのいちらん)では、UnicodeがEmoji(絵文字)として定義している文字の一覧を記載する。
        "
        UnicodeのEmojiの一覧 - Wikipedia
        https://ja.wikipedia.org/wiki/Unicode%E3%81%AEEmoji%E3%81%AE%E4%B8%80%E8%A6%A7

タイトルとURLをコピーしました