画像からテキストを読み取る技術:OCRを試してみる!

AI関連の実装/デモ
この記事は約1分で読めます。
スポンサードリンク

はじめに

画像の中に写っている文字などを抽出する技術をOCR(Optical character recognition)といいます。最近では、DeepLearning(深層学習)の活用により、その認識精度が飛躍的に改善している技術の1つです。

OCRを使えば、例えば、レシートの写真を撮影するだけで、レシート画像中の文字を自動で読み取り家計簿をつけることができるようになります。

実際に動かしてみる

今回は、大きく2つのタイプのOCRを試してみました。

1つ目が、オープンソースであるtesseract-ocrを用いる方法です。
そして、2つ目が、GoogleがクラウドベースAPIで提供しているGoogle Cloud Vision API上のOCR機能をつかう方法です。

それぞれの方法を以下の2記事でまとめています。

その1、tesseract-ocrを使ってみよう!

【オープンソースで使えるOCR!】Tesseract-Ocrを試してみる【Mac版】
はじめにtesseract-ocrを利用し、OCRをする手順を紹介します。プロジェクトURL:tesseract-ocrをインストールbrew install tesseract英語の文字認識を試してみる!コマンドの実行適当な画像を用意し、

その2、Google Cloud Vision APIのOCR機能をつかってみよう!

凄すぎ!Google Cloud Vision APIをつかって簡単高精度にOCR
はじめにGoogle Cloud Vision APIのOCRを試してみたら精度が良すぎてビビったので、やり方とその結果を紹介してみます。Google Cloud Vision APIを使う準備Google Cloud Vision API
タイトルとURLをコピーしました