Ryusei’s Notes (a.k.a. M59のブログ)

漢字データベースプロジェクト差分

漢字技術

漢字データベースプロジェクトのブランチで、データを独自に修正して公開しているのだけれども(http://gitorious.org/~mandel59/kanji-database/mandel59s-kanji-database/commits/master)、その差分を一応公開しておく。http://dl.dropbox.com/u/1224536/tmp/kdp20100123.diff

差分概要

重複漢字1件追加(U+08200 U+2695D)
類似漢字2件追加(U+082DF U+0830D), (U+08411 U+096C8)
解字IDSデータの萑を雈に修正
字形IDSデータの修正
- 基本的にCode Charts(Unicode 5.2のもの)のPDFに載っている字形を参考に修正。
- U+4E44〈乄〉の分解用にU+31E2〈㇢〉追加
- その他分解されていない字の分解(〈以〉→《⿲𠄌丶人》など)
- 《⿰⿱〓殳》に対し《⿹𣪊〓》の追加(IDS正規化や検索アルゴリズムに、この変更がどう影響するかについては全く考えていない。)
- U-000290CFの《⿱雪火》→《⿱雨灵 ⿱雪火[X]》という修正のように、区切る位置の違いの修正も含まれている。
スクリプト追加

オリジナルとは編集のポリシーが違う部分もあると思うので注意。どういう形で記述されていると検索しやすいかの考察もしたいが、手つかず。