テービーテックのデータサイエンス

未経験リケジョがゼロからデータサイエンティストを目指す姿を記す奮闘記です。2019/12/05文系出身者が共同で更新を開始

TAG index

▲本日の関数==value_counts()=

f:id:TBT_matsu:20200402152259p:plain

本日の関数:value_counts()

こんにちは。
テービーテックの村松です。

本日ご紹介する関数は「value_counts()」。
※※これまでご紹介した関数はこちら※※

どんな関数?

データフレームなどの列の要素の出現回数を知りたいときに使います。

引数は?
value_counts(self, normalize=False, sort=True, ascending=False, bins=None, dropna=True)

よく指定する引数は、

  • sort:降順に並び替えます。(デフォルトはTrue)
  • ascending:昇順に並び替えます。(デフォルトはFalse)

使ってみよう

input
#データフレームを用意
df

f:id:TBT_matsu:20200408112926p:plain

コード
#列を指定します。
df['Menu'].value_counts()

##結果
そば        2
おにぎり      2
ハンバーガー    1
パン        1
ラーメン      1
Name: Menu, dtype: int64

デフォルトで降順となっているので出現頻度が高いものから順に並んでいますね。

#sort=Falseに変更
df['Menu'].value_counts(sort=False)

##結果
おにぎり      2
ラーメン      1
そば        2
パン        1
ハンバーガー    1
Name: Menu, dtype: int64

sortを無効にするとバラバラの状態で出てきます。

#ascending=Trueに変更
df['Menu'].value_counts(ascending=True)

##結果
ラーメン      1
パン        1
ハンバーガー    1
おにぎり      2
そば        2
Name: Menu, dtype: int64

こちらは出現頻度の低い順。
とても便利な機能なので状況に応じて使い分けていきたいですね。

もっと詳しく!

ドキュメントへ!!