TPTブログ

テックポート株式会社のブログです。 技術情報や製品・サービス情報、 また未経験社員がデータサイエンティストを 目指す奮闘記など、更新していきます。

▲本日の関数==split()==

f:id:TBT_matsu:20200402152259p:plain

本日の関数:split()

こんにちは。
テービーテックの村松です。

本日ご紹介する関数は「split()」。
※※これまでご紹介した関数はこちら※※

どんな関数?

組み込み関数の一つです。
スペースやカンマ区切りの文字列を分割するときによく使います。
なので自然言語処理の際に文章を単語ごとに分割するときに使ったりしますね。

引数は?
str.split(sep=None, maxsplit=-1)

よく指定する引数は、

  • sep:何で区切るかを指定できます。デフォルトは「 (空白)」。
  • maxsplit:分割の回数を指定できます。デフォルトは-1(制限無し)

使ってみよう

input
s = 'Summ, summ, summ! Bienchen summ herum!'
コード

sepのデフォルトがスペースなので日本語以外はすんなり分割できて便利ですね。

s.split()

##結果
['Summ,', 'summ,', 'summ!', 'Bienchen', 'summ', 'herum!']

戻り値はリストになっています。

sepで指定する区切り文字は色々指定ができます。
もちろん日本語でもOK。

s2 = 'ぶるんぶるんぶるんはるちるがるとるぶ'
s2.split('る')

##結果
['ぶ', 'んぶ', 'んぶ', 'んは', 'ち', 'が', 'と', 'ぶ']
#おまけでjoin()でつなげときます。
''.join(s2.split('る'))
##結果
'ぶんぶんぶんはちがとぶ'

因みに区切り文字は1文字でなくても大丈夫です。

s2.split('るん')
##結果
['ぶ', 'ぶ', 'ぶ', 'はるちるがるとるぶ']

もっと詳しく!

ドキュメントへ!!