凄すぎ!Google Cloud Vision APIをつかって簡単高精度にOCR

今回は、Google Cloud Vision APIのOCRを試してみたら精度が良すぎてビビったので、やり方と結果を紹介してみます。

1,Google Cloud Vision APIを使うためのkeyの取得


上のリンクにアクセスし、

プロジェクトを作成した上で、

スクリーンショット 2016-06-12 23.53.05

visionと検索するとGoogle Cloud Vision APIがでてきますので、選択します。

スクリーンショット 2016-06-12 23.53.18

次に、上部の「有効にする」をクリックした後、「認証情報にすすむ」というボタンが

現れるのでこちらをクリックし、画面に従って入力します。

ここまで完了したら、やっとAPIキーを取得できます。

API Manger →認証情報にすすみます。

スクリーンショット 2016-06-12 23.57.56

認証情報を作成からAPIキーを選択し、「ブラウザキー」をクリックし、画面に従って入力します。

スクリーンショット 2016-06-12 23.59.38

入力が、完了するとAPIキーが発行されます。

2,Google Cloud Vision API でOCRをはじめよう


APIをたたくためのコードはこちら、

参考元:http://qiita.com/bbr_bbq/items/9005e7b766898e04980b

str_api_keyは、取得したAPIキーに書き換え

#!/usr/bin/python
#coding:utf-8
import base64
import json
from requests import Request, Session


def recognize_captcha(str_image_path):
        bin_captcha = open(str_image_path, 'rb').read()

        str_encode_file = base64.b64encode(bin_captcha)

        str_url = "https://vision.googleapis.com/v1/images:annotate?key="

        str_api_key = "KEY"

        str_headers = {'Content-Type': 'application/json'}

        str_json_data = {
            'requests': [
                {
                    'image': {
                        'content': str_encode_file
                    },
                    'features': [
                        {
                            'type': "TEXT_DETECTION",
                            'maxResults': 10
                        }
                    ]
                }
            ]
        }

        print("begin request")
        obj_session = Session()
        obj_request = Request("POST",
                              str_url + str_api_key,
                              data=json.dumps(str_json_data),
                              headers=str_headers
                              )
        obj_prepped = obj_session.prepare_request(obj_request)
        obj_response = obj_session.send(obj_prepped,
                                        verify=True,
                                        timeout=60
                                        )
        print("end request")

        if obj_response.status_code == 200:
            print obj_response.text
            with open('data.json', 'w') as outfile:
                json.dump(obj_response.text, outfile)
            return obj_response.text
        else:
            return "error"

if __name__ == '__main__':
  recognize_captcha("jpn.jpg")

3,OCR認識結果


・英語のレシート認識

使った画像はこちら(画像元:https://en.wikipedia.org/wiki/Receipt)

eng

認識結果はこちら

 

うん、いい感じですね。

それでは、続いて日本語のレシートも試してみましょう。ちなみにOSSのtesseractは日本語はダメでした、、

・日本語のレシート認識

使った画像はこちら(画像元:http://miettal.hatenablog.com/entry/2015/12/31/020434)

jpn

認識結果はこちら

 

日本語もうまくいってるようです。

他にももうちょっと複雑な領収書のような画像もためしてみましたが、かなり高精度でほんとにおどろきました。

さすがっすGoogle。