Webにおける文字列処理

関連が少なめにつき別項立て

文字の情報を調べるためのブックマークレット サロゲートペア対応版 - M59の記録←元の話 サロゲートペア対応

  • TwitterでWebから書き込もうとするとサロゲートペアは1文字なのに2文字扱いになる。
  • 文章の「抜粋」は文字単位の処理も必要だけど、《結合文字の並び》も絡むから大変。たとえば日本語なら〈か゚〉などを〈か〉と《U+309A》の間で切ってはいけない。でもUTF-8を文字境界無視して切る実装はもっとダメ。twitpicとかしっかりして。
  • PixivでもBMP外の文字が使えないみたい。