stenyan[.]dev

JAEN

異体字を検索するためのちょっとしたツールを作成した

最近業務で本人確認 (eKYC) に関する実装をチームでしており、その中で名前や住所に含まれる異体字をどう処理するかがホットなトピックでした。日本語には同じ漢字であっても微妙に文字の形が違うものがあり、こういったものを異体字と呼びます。

厚生労働省が出している「異体字検索漢字リスト」が参考になります(実際にはもっと種類があります)。

本人確認書類に登場する異体字と、ユーザーが手入力した名前の漢字が同じものを指しているのかどうかなどを人間がぱっと見で判断するのは大変そう(上記のPDFをはじめとするソースをいちいち見るのも面倒)なので、今回簡単なWebツールを作ってみました。

https://moji.stenyan.dev/ で試すことができます。

MJ縮退マップ検索 とは

文字情報技術促進協議会が、まさに今回のユースケースに使えそうなデータセットを公開しています1。例えば渡邉の「邉」の縮退先は「辺」だとか、「髙」の縮退先は「高」みたいなのがわかる感じになっています。

このデータセットを元に簡単に「縮退先」および「縮退元」の候補を一気に検索できるというものを作ってみました。これを使うことで特定の字の縮退先などの関係性を調べるのが楽になりました。2

ちなみに適当なフォントを使うと、字によっては文字化けして豆腐文字になってしまいます。文字情報技術促進協議会はそれを避けるためのフォントも公開してくれていて3、このツールでも利用しています。

邉を検索した場合のMJ縮退マップ検索の画面
異体字「邉」を検索した結果。「辺」が縮退先であることがわかる。
高を検索した場合のMJ縮退マップ検索の画面
「高」を検索した結果。色々な「高」っぽい字があることがわかる。

Footnotes

  1. https://moji.or.jp/mojikiban/map/

  2. https://moji.or.jp/mojikibansearch/basic にも検索ページが存在しますが、「縮退先」「縮退元」を一気に取得するようなことはできなそうだったので今回別途作りました。

  3. https://moji.or.jp/mojikiban/font/