▲本日の関数==neologdn.normalize()==

f:id:TBT_matsu:20200402152259p:plain

こんにちは。
テービーテックの村松です。

本日ご紹介する関数は「neologdn.normalize()」。
※※これまでご紹介した関数はこちら※※

自然言語処理の前処理として使用する表記揺れの統一方法の一つです。
全角・半角の統一や重ね表現の除去ができます。
以前紹介した表記揺れ対策「unicodedata.normalize()」でも似た使い方をしましたね。

neologdn.normalize(text, repeat)

引数は、

text = 'ｽ　ﾀｰｰｰｰｰ~～ｰ　ﾄＳｔａｒｔ２２'

pip install neologdn

import neologdn
neologdn.normalize(text)

##結果
'スタートStart22'

半角カタカナは全角に、「ｰｰｰｰｰ」は全角に直ったうえで1文字に変換されました。
また、「　(空白)」や「~」「～」が除去され、全角英数字は半角に変換されます。

また、注意したいこととして、

text2 = 'Ｇｏｏｄ！！！！！！'
neologdn.normalize(text2, repeat=1)

##結果
'God!'

このように重ね表現は短縮後の文字数を指定できますが、
「Good」のような単語まで「God」と変換されてしまいます。
ウッカリすると別の単語になってしまうので注意したい点ですね。

TPTブログ