OSS:tesseract-ocrを使ってOCRを試してみた。(mac)

tesseract-ocrを利用し、OCRをする手順を紹介します。

リンク:https://github.com/tesseract-ocr

1,brewをつかってインストール


brew install tesseract

2,英語の文字認識を試してみよう。


適当な画像を用意し、ターミナル上で

tesseract test.png result -l eng

engは、英語で認識するためのオプション

今回はこちらの画像で検証
(画像元:https://en.wikipedia.org/wiki/Receipt)

eng

そしてOCR結果がこちら

Berqhotel

Grosse Scheidegg 3818 Grindelwald

Familie R.Mul1er

Reoh.Nr. 4572 30.07.2007/13:29:17 Bar Tisch 7/01

2xLatte Macchiato 4.50 CHF 9.00

1xGloki 5.00 5.00 1xSchweinsohnitzel 22.00 22.00 1xCh§sspatzli 18.50

Total : CHF

Incl. 7.6% MwSt 54.50 CHF: 3.85

Entspricht in Euro 38.33 EUR Es bediente Sie: Ursula

MwSt Nr.: 430 234 Tel.: 033 853 87 16 Fax.: 033 853 67 19 E—mail: grossesoheidegg0bluewin.ch

このように、英語の文字における認識はうまくいくことが確認できました。

3,日本語の文字認識を試してみよう


次に、日本語のレシートでためしみましょう。

日本語の認識をおこなうためには、日本語用のデータセットを取得する必要があります。

こちらのリンク(https://github.com/tesseract-ocr/tessdata)から、jpn.traineddataをダウンロードし、

/usr/local/Cellar/tesseract/3.04.01_1/share/tessdataに移動して、配置。

それでは、ターミナルで実際に以下のコマンドを叩いて試してみましょう!

tesseract test.png result -l jpn

オプションはjpnで日本語に設定。

 

そして、用いた画像はこちら(画像元:http://miettal.hatenablog.com/entry/2015/12/31/020434)

jpn
そして、読み取り結果はこちらです。

まい博すけっじ

*ネ*****ネ冷**ネ渚ネ率澪ネ撃**ネ*ネ

営業時闇 : ぁさ8時~よるー 2時 年中無休

鸞*******************************

うーーん、日本語だとうまくいかないっぽいですね、、

 

4,まとめ


今回は、OCRのOSS:tesseract-ocrで試してみました。

結果としては、英語ではある程度うまくいくようですが、日本語だといまいちでした。。

 

補足)インストール時にその他の言語データセットも同時にインストールするには、、

brew install tesseract --all-languages