漢字データベースプロジェクト差分

漢字データベースプロジェクトのブランチで、データを独自に修正して公開しているのだけれども(http://gitorious.org/~mandel59/kanji-database/mandel59s-kanji-database/commits/master)、その差分を一応公開しておく。http://dl.dropbox.com/u/1224536/tmp/kdp20100123.diff

差分概要

  • 重複漢字1件追加(U+08200 U+2695D)
  • 類似漢字2件追加(U+082DF U+0830D), (U+08411 U+096C8)
  • 解字IDSデータの萑を雈に修正
  • 字形IDSデータの修正
    • 基本的にCode Charts(Unicode 5.2のもの)のPDFに載っている字形を参考に修正。
    • U+4E44〈乄〉の分解用にU+31E2〈㇢〉追加
    • その他分解されていない字の分解(〈以〉→《⿲𠄌丶人》など)
    • 《⿰⿱〓殳》に対し《⿹𣪊〓》の追加(IDS正規化や検索アルゴリズムに、この変更がどう影響するかについては全く考えていない。)
    • U-000290CFの《⿱雪火》→《⿱雨灵 ⿱雪火[X]》という修正のように、区切る位置の違いの修正も含まれている。
  • スクリプト追加

オリジナルとは編集のポリシーが違う部分もあると思うので注意。どういう形で記述されていると検索しやすいかの考察もしたいが、手つかず。