▲本日の関数==re.sub()==

f:id:TBT_matsu:20200402152259p:plain

こんにちは。
テービーテックの村松です。

本日ご紹介する関数は「re.sub()」。
※※これまでご紹介した関数はこちら※※

テキスト内の指定する条件に合った文字を任意の文字列に置換することができます。

re.sub(pattern, repl, string, count=0, flags=0)

よく指定する引数は、

適当な文字列を用意します。今回は本ブログのTOPページのURLです。

sentence = 'https://ds-blog.tbtech.co.jp/'

指定の文字を置換してみましょう。

#aからzのアルファベットを〇に置換します。
re.sub('[a-z]', '〇', sentence)

##結果
'〇〇〇〇〇://〇〇-〇〇〇〇.〇〇〇〇〇〇.〇〇.〇〇/'

「××以外」という指定もよく使いますね。

#aからzのアルファベット以外を〇に置換します。
#指定文字の前に「^」を付けます。
re.sub('[^a-z]', '〇', sentence)

##結果
'https〇〇〇ds〇blog〇tbtech〇co〇jp〇'

正規表現操作は色々な指定ができます。
こちらのドキュメントをご参照ください。

また、引数countを指定することで置換する回数を制限することもできます。

#aからzのアルファベットを5回〇に置換します。
re.sub('[a-z]', '〇', sentence, 5)

##結果
'〇〇〇〇〇://ds-blog.tbtech.co.jp/'

自然言語処理の前処理で使い勝手が良さそうですね。
今後も活用していきたいです。

TPTブログ