こんにちは! テービーテックの村松です。「言語処理100本ノック2020]」 nlp100.github.io に挑戦中! 途中でくじけないか見守ってください・・・。 そして、皆さんも一緒に挑戦してみましょう!本日は第4章:形態素解析 35~39です! 間違い・コード改善点…
こんにちは! テービーテックの村松です。「言語処理100本ノック2020]」 nlp100.github.io に挑戦中! 途中でくじけないか見守ってください・・・。 そして、皆さんも一緒に挑戦してみましょう!本日は第4章:形態素解析 30~34です! 間違い・コード改善点…
本日の関数:requests.get() こんにちは。 テービーテックの村松です。本日ご紹介する関数は「requests.get()」。 ※※これまでご紹介した関数はこちら※※ どんな関数? Requests は Python の HTTP ライブラリです。 WEB上でのデータ収集をする際に使用します…
こんにちは! テービーテックの村松です。「言語処理100本ノック2020]」 nlp100.github.io に挑戦中! 途中でくじけないか見守ってください・・・。 そして、皆さんも一緒に挑戦してみましょう!本日は第第3章: 正規表現 25~28です! (※5/27に29を追加しま…
こんにちは! テービーテックの村松です。本日はAI・機械学習を学びたい・学び始めている初心者の方にオススメしたい勉強法についてご紹介したいと思います。 私も去年の4月からAI・・・?プログラミング・・・??と思いながらPythonの「P」の字から始めた…
こんにちは! テービーテックの村松です。「言語処理100本ノック2020]」 nlp100.github.io に挑戦中! 途中でくじけないか見守ってください・・・。 そして、皆さんも一緒に挑戦してみましょう!本日は第第3章: 正規表現 20~24です! 間違い・コード改善点…
こんにちは! テービーテックの村松です。「言語処理100本ノック2020]」 nlp100.github.io に挑戦中! 途中でくじけないか見守ってください・・・。 そして、皆さんも一緒に挑戦してみましょう!本日は第2章:UNIXコマンド 15~19です! 間違い・コード改善…
こんにちは! テービーテックの村松です。「言語処理100本ノック2020]」 nlp100.github.io に挑戦中! 途中でくじけないか見守ってください・・・。 そして、皆さんも一緒に挑戦してみましょう!本日は第2章:UNIXコマンド 10~14です! 間違い・コード改善…
こんにちは! テービーテックの村松です。「言語処理100本ノック2020]」 nlp100.github.io に挑戦中! 途中でくじけないか見守ってください・・・。 そして、皆さんも一緒に挑戦してみましょう!本日は第1章:準備運動05~09です! 間違い・コード改善点など…
こんにちは! テービーテックの村松です。 「本日の関数」シリーズに続きまして小ネタ集その2です。 「言語処理100本ノック2020]」 nlp100.github.io に挑戦していきます!ちょっとずつですが進めてまいりますので、 途中でくじけないか見守ってください・・…
本日の関数:interpolate() こんにちは。 テービーテックの村松です。本日ご紹介する関数は「interpolate()」。 ※※これまでご紹介した関数はこちら※※ どんな関数? データフレーム等の欠損値の補間方法の一つ。 前後の値を考慮して補間します。 沢山の補間方…
本日の関数:describe() こんにちは。 テービーテックの村松です。本日ご紹介する関数は「describe()」。 ※※これまでご紹介した関数はこちら※※ どんな関数? データフレームなどを扱うときに要約統計量の確認に使います。 ざっくり列ごとのデータ数や平均・…
本日の関数:split() こんにちは。 テービーテックの村松です。本日ご紹介する関数は「split()」。 ※※これまでご紹介した関数はこちら※※ どんな関数? 組み込み関数の一つです。 スペースやカンマ区切りの文字列を分割するときによく使います。 なので自然言…
本日の関数:neologdn.normalize() こんにちは。 テービーテックの村松です。本日ご紹介する関数は「neologdn.normalize()」。 ※※これまでご紹介した関数はこちら※※ どんな関数? 自然言語処理の前処理として使用する表記揺れの統一方法の一つです。 全角・…
本日の関数:unicodedata.normalize() こんにちは。 テービーテックの村松です。本日ご紹介する関数は「unicodedata.normalize()」。 ※※これまでご紹介した関数はこちら※※ どんな関数? Unicodeの正規化を行います。 自然言語処理で表記揺れの統一をしたいと…
本日の関数:han_to_zen() こんにちは。 テービーテックの村松です。本日ご紹介する関数は「han_to_zen()」。 ※※これまでご紹介した関数はこちら※※ どんな関数? mojimojiというライブラリの半角文字を全角に変換する関数です。 引数は? mojimoji.han_to_ze…
本日の関数:lower() こんにちは。 テービーテックの村松です。本日ご紹介する関数は「lower()」。 ※※これまでご紹介した関数はこちら※※ どんな関数? 組み込み関数。 全ての大文字小文字の区別がある文字を小文字に変換します。 自然言語処理の前処理でお世…
こんにちは! テービーテックの村松です。本日ご紹介するのはMicrosoft Azureの画像認識サービス「Custom Vision Service」です。 プログラミング?やったことないよ。 機械学習?なにそれ。 そんな方でも自分の持っている画像を学習させることで画像の分類…
こんにちは! テービーテックの村松です。本日は、こちら2つ↓↓の続き。 ▲Kaggleやってみよう【Movie Reviews:映画レビューの感情分析】前篇 - テービーテックのデータサイエンス ▲Kaggleやってみよう【Movie Reviews:映画レビューの感情分析】中篇 - テー…
本日の関数:re.sub() こんにちは。 テービーテックの村松です。本日ご紹介する関数は「re.sub()」。 ※※これまでご紹介した関数はこちら※※ どんな関数? テキスト内の指定する条件に合った文字を任意の文字列に置換することができます。 引数は? re.sub(pat…
本日の関数:get_text() こんにちは。 テービーテックの村松です。本日ご紹介する関数はBeautifulSoupライブラリの「get_text()」。 ※※これまでご紹介した関数はこちら※※ どんな関数? BeautifulSoupライブラリはHTMLやXMLから狙ったデータを抽出するために…
こんにちは! テービーテックの村松です。本日は、こちらの続きをやっていこうかと思います。 ds-blog.tbtech.co.jp前回は、前処理の単語にばらして綺麗に整えるところまで行いました。 《予定している前処理》 ・余分な要素の排除 ・小さな単位(文字・単語…
こんにちは! テービーテックの村松です。Kaggleやってみよう第2弾は「Sentiment Analysis on Movie Reviews」映画レビューの感情分析です。 自然言語系の課題に取り組んだことがなかったので選んでみました。いつも以上に覚束なくなりそうですが、Notebooks…
本日の関数:range() こんにちは。 テービーテックの村松です。本日ご紹介する関数は「range()」。 ※※これまでご紹介した関数はこちら※※ どんな関数? Pythonの組み込み関数のひとつ。 返り値はrange型ですが、そのまま使用することはあまりありません。 連…
本日の関数:fillna() こんにちは。 テービーテックの村松です。本日ご紹介する関数は「fillna()」。 ※※これまでご紹介した関数はこちら※※ どんな関数? 欠損値を任意の他の値に置換(穴埋め)する際に使います。 引数は? fillna(self、value = None、meth…
本日の関数:value_counts() こんにちは。 テービーテックの村松です。本日ご紹介する関数は「value_counts()」。 ※※これまでご紹介した関数はこちら※※ どんな関数? データフレームなどの列の要素の出現回数を知りたいときに使います。 引数は? value_coun…
本日の関数:set() こんにちは。 テービーテックの村松です。本日ご紹介する関数は「set()」。 ※※これまでご紹介した関数はこちら※※ どんな関数? 組み込み関数。 指定した引数から重複しない要素をset型として生成できます。 引数としてリストやタプルを渡…
本日の関数 こんにちは。 テービーテックの村松です。 「本日の関数」では、私のその日の気分で様々なPythonの関数を紹介していきます。 目指せ毎日更新!!(目標は高く) 本ページはその目次となります。なお、まだまだPythonのお勉強中の身がちまちま書いて…
本日の関数:concat() こんにちは。 テービーテックの村松です。本日の関数をご紹介する前に、本シリーズの目次ページを作りましたのでご案内します。 ds-blog.tbtech.co.jp ぼちぼち量も増えてきましたかね。 これからもりもりと増やしてまいります。閑話休…
こんにちは。 テービーテックの村松です。本日はこちらの続きをご紹介いたします。 ds-blog.tbtech.co.jp前回は各項目が生存率に確認していそうかグラフ化しながら確認していきました。 今日は使用する項目を選んで前処理から最終のKaggleに提出してスコアを…