2009-11-25 Webにおける文字列処理 技術 関連が少なめにつき別項立て 文字の情報を調べるためのブックマークレット サロゲートペア対応版 - M59の記録←元の話 サロゲートペア対応 TwitterでWebから書き込もうとするとサロゲートペアは1文字なのに2文字扱いになる。 文章の「抜粋」は文字単位の処理も必要だけど、《結合文字の並び》も絡むから大変。たとえば日本語なら〈か゚〉などを〈か〉と《U+309A》の間で切ってはいけない。でもUTF-8を文字境界無視して切る実装はもっとダメ。twitpicとかしっかりして。 PixivでもBMP外の文字が使えないみたい。