OCRってどうやるの？

こんにちは！
最近職場復帰した深津ですが、
初仕事は「とある画像から文章を起こし、その文章をジャンル分けせい！！」でした。

一般的なやり方としては、画像を見ながら文章を書き起こし、
その文章を一つずつ読み解きジャンルを分類していく、というものですよね？
でもそれってデータサイエンティスト(を目指す者)としてどうなの？
カッコよくないよね～

そんな訳でカッコよくテクノロジーを駆使して
文字起こしと、文章の分類を行っていこうと思います！

OCR

まず画像から文字を読み取る手法として、OCRを使用します。

光学文字認識は、活字、手書きテキストの画像を文字コードの列に変換するソフトウェアである。画像はイメージスキャナーや写真で取り込まれた文書、風景写真 (風景内の看板の文字など)、画像内の字幕 (テレビ放送画像内など)が使われる。一般にOCRと略記される。引用元:光学文字認識 - Wikipedia

OCRはソフトやアプリ、サイトなどの有料・無料ツールが様々ありますが
今回私が行った方法は、Googleドライブに画像を入れる！だけです(*°∀°)ｂ

本当にそんな簡単な作業でOCRしてくれるかな～(´･∀･`)
とりあえずやってみます。

まずは画像を用意します。
今回は弊社が開催している、DSIT講座の画面をスクショしたものをテストに使います。
普通の文章と違って、色や文字の大きさがバラバラですが、上手く読み取れるのか？？
そして画像をGoogleドライブへアップロードします。

f:id:tbtech:20210531154511p:plain — (左)テスト画像　(右)Googleドライブへ入れた状態

f:id:tbtech:20210531160256p:plain — (左)テスト画像　(右)Googleドライブへ入れた状態

続いてGoogleドライブへ入れた画像を開いてみます。
画像データを右クリック⇒「アプリで開く」⇒「Google ドキュメント」を選択します
f:id:tbtech:20210531161145p:plain

すると用意した画像と文字がまとめられて出力されます。
f:id:tbtech:20210531161828p:plain
すごい!!
ロゴの中の文字から、文字の大小に関わらず全ての文字を誤字なく読み取れました。
さっすがGoogleさま(*ﾟ∀ﾟ*)

少し難易度を上げて、小さい文字を読み込みます。
文字が小さいので引き延ばされると、画質が悪くなりました。
f:id:tbtech:20210531165143p:plain
これを同様の手順でOCRしてみた結果部分がこちらです！
f:id:tbtech:20210531165641p:plain
読み取れない部分が多く、文章が短くなっています。
また、画数が多い文字が特に読み取れていません。