▲本日の関数==unicodedata.normalize()==

f:id:TBT_matsu:20200402152259p:plain

こんにちは。
テービーテックの村松です。

本日ご紹介する関数は「unicodedata.normalize()」。
※※これまでご紹介した関数はこちら※※

Unicodeの正規化を行います。
自然言語処理で表記揺れの統一をしたいときに利用します。

unicodedata.normalize(form, unistr)

引数は、

ちょっと変わった文字の入ったサンプルで何が変わるか見てみましょう。

s = '神崎、Ｄ-Ⅲｸﾞﾙｰﾌﾟ、３０㌔ﾏﾗｿﾝ、③位'

import unicodedata
print(unicodedata.normalize("NFKC", s))
##結果
神崎、D-IIIグループ、30キロマラソン、3位

NFKC（Normalization Form Compatibility Composition）で
異体字：神→神
全角英数字：Ｄ・３０→D・30
ローマ数字：Ⅲ→III
単記号：㌔→キロ
半角カタカナ：ｸﾞﾙｰﾌﾟ・ﾏﾗｿﾝ→グループ・マラソン
丸数字：③→3
に変わりました。

正規化形式の詳しくはこちらをご参照ください。

SNSなどのテキストを取得するときなどはこういったちょっと変わった文字表現が多用されてないか特に気を付けたいですね。
日本語はただでさえ使っている文字が多いので表記揺れを統一していくことに苦労しそうです・・・。
他にも色々な日本語特有の表記揺れ対策があるようなので今後も勉強していきたいですね。

TPTブログ