テービーテックのデータサイエンス

未経験リケジョがゼロからデータサイエンティストを目指す姿を記す奮闘記です。2019/12/05文系出身者が共同で更新を開始

TAG index

▲本日の関数==split()==

f:id:TBT_matsu:20200402152259p:plain

本日の関数:split()

こんにちは。
テービーテックの村松です。

本日ご紹介する関数は「split()」。
※※これまでご紹介した関数はこちら※※

どんな関数?

組み込み関数の一つです。
スペースやカンマ区切りの文字列を分割するときによく使います。
なので自然言語処理の際に文章を単語ごとに分割するときに使ったりしますね。

引数は?
str.split(sep=None, maxsplit=-1)

よく指定する引数は、

  • sep:何で区切るかを指定できます。デフォルトは「 (空白)」。
  • maxsplit:分割の回数を指定できます。デフォルトは-1(制限無し)

使ってみよう

input
s = 'Summ, summ, summ! Bienchen summ herum!'
コード

sepのデフォルトがスペースなので日本語以外はすんなり分割できて便利ですね。

s.split()

##結果
['Summ,', 'summ,', 'summ!', 'Bienchen', 'summ', 'herum!']

戻り値はリストになっています。

sepで指定する区切り文字は色々指定ができます。
もちろん日本語でもOK。

s2 = 'ぶるんぶるんぶるんはるちるがるとるぶ'
s2.split('る')

##結果
['ぶ', 'んぶ', 'んぶ', 'んは', 'ち', 'が', 'と', 'ぶ']
#おまけでjoin()でつなげときます。
''.join(s2.split('る'))
##結果
'ぶんぶんぶんはちがとぶ'

因みに区切り文字は1文字でなくても大丈夫です。

s2.split('るん')
##結果
['ぶ', 'ぶ', 'ぶ', 'はるちるがるとるぶ']

もっと詳しく!

ドキュメントへ!!