UnihanをSQLite3で使う

Unicodeの漢字データベースUnihanを使えば、漢字のソース、読み、画数、異体字などのデータが使える。
UAX #38: Unicode Han Database (Unihan)
Unicode 5.2.0ではzip圧縮された複数のテキストファイルとして配布されているが、実際に使う場合はデータベースにしておいたほうが使いやすそうだ。
漢字データベースプロジェクトからSQLite3データベースにするスクリプトが入手できるが、一部バグがあり、また巨大なテンポラリファイルを作るので修正版を載せておく。Gitoriousのリポジトリにプッシュしておいた*1。(http://gitorious.org/~mandel59/kanji-database/mandel59s-kanji-database/blobs/mywork/util/unihan.py)
追記(2009-11-18): http://progit.org/book/ja/を読んでやり方が分かったので、ちゃんとmasterという名前のブランチにできました。

*1:gitの使い方が良く分かっていないので、ブランチ名が変になってしまった。