前回のつづきで今回はKaggleのデータセットの
選択から投稿の仕方までを説明しようと思います!
データセットを選ぼう
Kaggleには数多くのデータセットがありますが、
まずはその中から挑戦するデータセットを選びましょう。
メニューから「データセット」を選択すると以下のように表示されます。
赤枠の項目からデータセットを絞り込むことができます。
サイズ・・・データの大きさをS,M,Lから選びます。
データが大きい程、データ処理の難易度が上がる可能性があります。
ファイルタイプ・・・ファイルの種類を選びます。おすすめはCSVです。
ライセンス・・・ライセンスの種類を選びます。
著作権などデータの取り扱いが異なるので注意しましょう。
タグ・・・キーワードで絞り込むことが出来ます。
例えば「政治」「スポーツ」などのカテゴリーや「初心者」などがあります。
データセットの内容
データセットの内容について確認しましょう。
今回はこちらを例にして見ていきます。
https://www.kaggle.com/kemical/kickstarter-projects
「説明」にこのデータセットに関する情報があります。
ここを必ず読んでよく理解しましょう!
「説明」の下には「データ」がありデータの数や、列名がわかります。
その下にはデータの中身を少し表示しているのでイメージを掴みます。
データの内容
データをダウンロードして内容を確認しましょう。
左上にある「ダウンロード」をクリックするとローカルにダウンロードされます。
今回のファイルの種類はCSVなのでExcelから開きます。
Excelの「ファイルを開く」からダウンロードした場所へ移動し、
ファイルの種類を「テキストファイル」にするとCSVファイルが表示されます。
ファイルを開くと以下のように表示されました。
項目が表示されていない列(赤枠)はセルの大きさを調節して全て表示します。
ここで確認するのは項目の中身です。
説明変数、目的変数はどれか?使えそう、使えなさそうな変数は?
欠損値はどのような状態か、どの欠損値処理が適していそうか?
などなど、情報をしっかり読み取り考察します。
新しいカーネルを作成
それではカーネルを作成して投稿する手順を説明します。
データセットのページに戻り、右上にある「新しいカーネル」をクリックします。
コードを書くために「スクリプト」か「ノート」の好きな方を選択します。
「ノート」を選択すると以下のように表示されます。
操作方法はJupyterNotebookとほとんど同じです。
初めのセルに書かれているコードを削除して、コードを書き始めます。
すでにJupyterNotebookでコードを作成している場合は、
左上の「ファイル」からアップロードができます。
コードは自動保存されるので、途中でやめる時はそのまま閉じます。
コードが書き終わり、エラー無く実行できたら投稿をします。
右の「設定」にある「共有する」を「非公開」から「パブリック」にすると
全体に公開されるので、投稿する前に変更しましょう。
投稿は右上の「コミット」をクリックします。
コミットした自分のカーネルを見てみましょう。
コードの下にログやコメント欄があります。
他の参加者がコードに対するコメントをすると、ここに表示されます。
誰か私にコメントしてくれないかなー
以上でデータセットの選択から投稿の仕方までの説明を終わります。
次回は私が実際に投稿したコードをお見せします!!