TPTブログ

テックポート株式会社のブログです。 技術情報や製品・サービス情報、 また未経験社員がデータサイエンティストを 目指す奮闘記など、更新していきます。

OCRってどうやるの?

こんにちは!
最近 職場復帰した深津ですが、
初仕事は「とある画像から文章を起こし、その文章をジャンル分けせい!!」でした。

一般的なやり方としては、画像を見ながら文章を書き起こし、
その文章を一つずつ読み解きジャンルを分類していく、というものですよね?
でもそれってデータサイエンティスト(を目指す者)としてどうなの?
カッコよくないよね~

そんな訳でカッコよくテクノロジーを駆使して
文字起こしと、文章の分類を行っていこうと思います!

OCR

まず画像から文字を読み取る手法として、OCRを使用します。

光学文字認識は、活字、手書きテキストの画像を文字コードの列に変換するソフトウェアである。画像はイメージスキャナーや写真で取り込まれた文書、風景写真 (風景内の看板の文字など)、画像内の字幕 (テレビ放送画像内など)が使われる。一般にOCRと略記される。引用元:光学文字認識 - Wikipedia

OCRはソフトやアプリ、サイトなどの有料・無料ツールが様々ありますが
今回私が行った方法は、Googleドライブに画像を入れる!だけです(*°∀°)b

本当にそんな簡単な作業でOCRしてくれるかな~(´・∀・`)
とりあえずやってみます。

まずは画像を用意します。
今回は弊社が開催している、DSIT講座の画面をスクショしたものをテストに使います。
普通の文章と違って、色や文字の大きさがバラバラですが、上手く読み取れるのか??
そして画像をGoogleドライブへアップロードします。

f:id:tbtech:20210531154511p:plainf:id:tbtech:20210531160256p:plain
(左)テスト画像 (右)Googleドライブへ入れた状態

続いてGoogleドライブへ入れた画像を開いてみます。
画像データを右クリック⇒「アプリで開く」⇒「Google ドキュメント」を選択します
f:id:tbtech:20210531161145p:plain

すると用意した画像と文字がまとめられて出力されます。
f:id:tbtech:20210531161828p:plain
すごい!!
ロゴの中の文字から、文字の大小に関わらず全ての文字を誤字なく読み取れました。
さっすがGoogleさま(*゚∀゚*)

少し難易度を上げて、小さい文字を読み込みます。
文字が小さいので引き延ばされると、画質が悪くなりました。
f:id:tbtech:20210531165143p:plain
これを同様の手順でOCRしてみた結果部分がこちらです!
f:id:tbtech:20210531165641p:plain
読み取れない部分が多く、文章が短くなっています。
また、画数が多い文字が特に読み取れていません。

OCRを上手く行うには画像の質が大きく影響しそうですね!
でも今時カメラで文章を撮影してもとってもキレイですし
ほとんどの文章を素早く読み取ることができそうです。
これで作業がとっても捗る~~٩(ˊᗜˋ*)و

次は画像から起こした文章を、ジャンル分けする作業をしたいと思います!
次回!メカブってなんや!?をお楽しみに~~