R: OCRを試す, tesseract ver. 2

OCRを勉強しています。今回はRについて書きます。精度をたかめるためには、いろいろ工夫が必要でしょうが、基本の読み取りは驚くほど簡単です。

Azure Notebooksでは使用できないようです。これについては、調べているところです。

ダウンロード版のRのスクリプトの解説は次にあります。事前の画像整形方法も書かれています。

 

Using the Tesseract OCR engine in R

 

I.英語の場合

 

スクリプト

 

install.packages("tesseract")
library(tesseract)
eng <- tesseract("eng")
text <- tesseract::ocr("http://www.mishou.be/wp-content/uploads/2019/11/Screenshot-2019-11-25-20.29.48.jpg", engine = eng)
cat(text)
 

 

もと画像

 

 

読み取られた文字列(スクリプト部分を示した赤字は筆者)

 

> cat(text) [1] !sudo apt install tesseract-ocr
[> Reading package lists… Done Building dependency tree Reading state information… Done tesseract-ocr is already the newest version (4.00~git2288-10f4998a-2). The following package was automatically installed and is no longer required: libnvidia-common-430 Use ‘sudo apt autoremove’ to remove it. 0 upgraded, 0 newly installed, 0 to remove and 32 not upgraded.
[2] !pip install pytesseract
[> Requirement already satisfied: pytesseract in /usr/local/lib/python3.6/dist-packages (0.3.0) Requirement already satisfied: Pillow in /usr/local/lib/python3.6/dist-packages (from pytesseract) (4.3.0) Requirement already satisfied: olefile in /usr/local/lib/python3.6/dist-packages (from Pillow->pytesseract) (0.46)
[3] import pytesseract
import shutil
import os import random
try:
from PIL import Image
except ImportError:
import Image

 

II.日本語の場合

 

日本語のトレーニング済みデータが必要です。下のリンクページのjpn.traineddataとjpn_vert.traineddataをダインロードし、tessdataフォルダにおきます。なお、後者は縦書きと横書き混合の場合です。

 

https://github.com/tesseract-ocr/tessdata

 

tessdataフォルダの場所は次の式により確認できます。

 

tesseract_info() 

 

スクリプト

 

install.packages("tesseract")
library(tesseract)
#Japanese
jpn <- tesseract("jpn")
text <- tesseract::ocr("http://www.mishou.be/wp-content/uploads/2019/11/Screenshot2019-11-2600.02.21.jpg", engine = jpn)
cat(text)
 

 

もと画像

 

 

読み取られた文字列(誤認箇所を示す赤字は筆者)

 

文字列こ れ は 、Krita で 描 い た 画 像 で す 。 難 し い 漢 字 は だ め み た い で す 。 例 え ば 、 こ の 文 字 は 游 明 朝 で す 。 普 通 の 文 字 は 大 丈 夫 の よ う で す が 、 記 号 は だ め で す 。 例 え ば 、 ` 記 号 」 は だ め で し ょ

 

to be continued

Please follow and like us:
error

About shibatau

I was born and grown up in Kyoto. I studied western philosophy at the University and specialized in analytic philosophy, especially Ludwig Wittgenstein at the postgraduate school. I'm interested in new technology, especially machine learning and have been learning R language for two years and began to learn Python last summer. Listening toParamore, Sia, Amazarashi and MIyuki Nakajima. Favorite movies I've recently seen: "FREEHELD". Favorite actors and actresses: Anthony Hopkins, Denzel Washington, Ellen Page, Meryl Streep, Mia Wasikowska and Robert DeNiro. Favorite books: Fyodor Mikhailovich Dostoyevsky, "The Karamazov Brothers", Shinran, "Lamentations of Divergences". Favorite phrase: Salvation by Faith. Twitter: @shibatau

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.