テービーテックのデータサイエンス

未経験リケジョがゼロからデータサイエンティストを目指す姿を記す奮闘記です

TAG index

Kaggleに挑戦しよう! ~コミットしようぜ~

f:id:tbtech:20190416183400j:plain


前回のつづきで今回はKaggleのデータセットの

選択から投稿の仕方までを説明しようと思います!

データセットを選ぼう

Kaggleには数多くのデータセットがありますが、

まずはその中から挑戦するデータセットを選びましょう。

メニューから「データセット」を選択すると以下のように表示されます。

赤枠の項目からデータセットを絞り込むことができます。

 

f:id:tbtech:20190412154622j:plain

 サイズ・・・データの大きさをS,M,Lから選びます。

      データが大きい程、データ処理の難易度が上がる可能性があります。

ファイルタイプ・・・ファイルの種類を選びます。おすすめはCSVです。

ライセンス・・・ライセンスの種類を選びます。

        著作権などデータの取り扱いが異なるので注意しましょう。

タグ・・・キーワードで絞り込むことが出来ます。

    例えば「政治」「スポーツ」などのカテゴリーや「初心者」などがあります。

 

データセットの内容

データセットの内容について確認しましょう。

今回はこちらを例にして見ていきます。

https://www.kaggle.com/kemical/kickstarter-projects

f:id:tbtech:20190416165103j:plain

「説明」にこのデータセットに関する情報があります。

ここを必ず読んでよく理解しましょう!

 

f:id:tbtech:20190416165611j:plain

「説明」の下には「データ」がありデータの数や、列名がわかります。

その下にはデータの中身を少し表示しているのでイメージを掴みます。

 

データの内容

データをダウンロードして内容を確認しましょう。

左上にある「ダウンロード」をクリックするとローカルにダウンロードされます。

今回のファイルの種類はCSVなのでExcelから開きます。

f:id:tbtech:20190416170322j:plain

Excelの「ファイルを開く」からダウンロードした場所へ移動し、

ファイルの種類を「テキストファイル」にするとCSVファイルが表示されます。

 

ファイルを開くと以下のように表示されました。

f:id:tbtech:20190416170725j:plain

項目が表示されていない列(赤枠)はセルの大きさを調節して全て表示します。

ここで確認するのは項目の中身です。

説明変数、目的変数はどれか?使えそう、使えなさそうな変数は?

欠損値はどのような状態か、どの欠損値処理が適していそうか?

などなど、情報をしっかり読み取り考察します。

 

新しいカーネルを作成

それではカーネルを作成して投稿する手順を説明します。

データセットのページに戻り、右上にある「新しいカーネル」をクリックします。

f:id:tbtech:20190416171755j:plain

コードを書くために「スクリプト」か「ノート」の好きな方を選択します。

「ノート」を選択すると以下のように表示されます。

操作方法はJupyterNotebookとほとんど同じです。

f:id:tbtech:20190416172358j:plain

初めのセルに書かれているコードを削除して、コードを書き始めます。

すでにJupyterNotebookでコードを作成している場合は、

左上の「ファイル」からアップロードができます。

コードは自動保存されるので、途中でやめる時はそのまま閉じます。

 

コードが書き終わり、エラー無く実行できたら投稿をします。

右の「設定」にある「共有する」を「非公開」から「パブリック」にすると

全体に公開されるので、投稿する前に変更しましょう。

投稿は右上の「コミット」をクリックします。

 

コミットした自分のカーネルを見てみましょう。

f:id:tbtech:20190416173756j:plain

コードの下にログやコメント欄があります。

他の参加者がコードに対するコメントをすると、ここに表示されます。

誰か私にコメントしてくれないかなー

 

以上でデータセットの選択から投稿の仕方までの説明を終わります。

次回は私が実際に投稿したコードをお見せします!!