こんにちは!
最近 職場復帰した深津ですが、
初仕事は「とある画像から文章を起こし、その文章をジャンル分けせい!!」でした。
一般的なやり方としては、画像を見ながら文章を書き起こし、
その文章を一つずつ読み解きジャンルを分類していく、というものですよね?
でもそれってデータサイエンティスト(を目指す者)としてどうなの?
カッコよくないよね~
そんな訳でカッコよくテクノロジーを駆使して
文字起こしと、文章の分類を行っていこうと思います!
OCR
まず画像から文字を読み取る手法として、OCRを使用します。
光学文字認識は、活字、手書きテキストの画像を文字コードの列に変換するソフトウェアである。画像はイメージスキャナーや写真で取り込まれた文書、風景写真 (風景内の看板の文字など)、画像内の字幕 (テレビ放送画像内など)が使われる。一般にOCRと略記される。引用元:光学文字認識 - Wikipedia
OCRはソフトやアプリ、サイトなどの有料・無料ツールが様々ありますが
今回私が行った方法は、Googleドライブに画像を入れる!だけです(*°∀°)b
本当にそんな簡単な作業でOCRしてくれるかな~(´・∀・`)
とりあえずやってみます。
まずは画像を用意します。
今回は弊社が開催している、DSIT講座の画面をスクショしたものをテストに使います。
普通の文章と違って、色や文字の大きさがバラバラですが、上手く読み取れるのか??
そして画像をGoogleドライブへアップロードします。
続いてGoogleドライブへ入れた画像を開いてみます。
画像データを右クリック⇒「アプリで開く」⇒「Google ドキュメント」を選択します
すると用意した画像と文字がまとめられて出力されます。
すごい!!
ロゴの中の文字から、文字の大小に関わらず全ての文字を誤字なく読み取れました。
さっすがGoogleさま(*゚∀゚*)
少し難易度を上げて、小さい文字を読み込みます。
文字が小さいので引き延ばされると、画質が悪くなりました。
これを同様の手順でOCRしてみた結果部分がこちらです!
読み取れない部分が多く、文章が短くなっています。
また、画数が多い文字が特に読み取れていません。
OCRを上手く行うには画像の質が大きく影響しそうですね!
でも今時カメラで文章を撮影してもとってもキレイですし
ほとんどの文章を素早く読み取ることができそうです。
これで作業がとっても捗る~~٩(ˊᗜˋ*)و
次は画像から起こした文章を、ジャンル分けする作業をしたいと思います!
次回!メカブってなんや!?をお楽しみに~~