画像からテキストを読み取る技術:OCRを試してみる!

AI関連の実装/デモ
この記事は約1分で読めます。
スポンサードリンク

はじめに

画像の中に写っている文字などを抽出する技術をOCR(Optical character recognition)といいます。最近では、DeepLearning(深層学習)の活用により、その認識精度が飛躍的に改善している技術の1つです。

OCRを使えば、例えば、レシートの写真を撮影するだけで、レシート画像中の文字を自動で読み取り家計簿をつけることができるようになります。

実際に動かしてみる

今回は、大きく2つのタイプのOCRを試してみました。

1つ目が、オープンソースであるtesseract-ocrを用いる方法です。
そして、2つ目が、GoogleがクラウドベースAPIで提供しているGoogle Cloud Vision API上のOCR機能をつかう方法です。

それぞれの方法を以下の2記事でまとめています。

その1、tesseract-ocrを使ってみよう!

OSS:tesseract-ocrを使ってOCRを試してみた。(mac)
tesseract-ocrを利用し、OCRをする手順を紹介します。リンク:1,brewをつかってインストールbrew install tesseract2,英語の文字認識を試してみよう。適当な画像を用意し、ターミナル上でtesseract

その2、Google Cloud Vision APIのOCR機能をつかってみよう!

凄すぎ!Google Cloud Vision APIをつかって簡単高精度にOCR
今回は、Google Cloud Vision APIのOCRを試してみたら精度が良すぎてビビったので、やり方と結果を紹介してみます。1,Google Cloud Vision APIを使うためのkeyの取得上のリンクにアクセスし、プロジェ

オススメのプログラミングスクール紹介

【TechAcademy】自宅で学べる!プログラミングスクール

まずは無料体験からでも始められます

★ここがポイント!

 自宅にいながらオンラインで勉強できる
◎ パーソナルメンターがついて指導!

◎ チャットで質問もOK
◎ あなたのオリジナルサービスの開発をサポート!

AI関連の実装/デモPythonプログラミング
スポンサードリンク
あれは魔法だろうか?
タイトルとURLをコピーしました