닫기

PROFESSIONAL AI DEVELOPER CHAGAUN

고객지원

기술마케팅

HOME 고객지원 기술마케팅
클리커에서 이미지로부터 문자인식(OCR) 기능을 사용하는 방법을 소개합니다.
2022.09.01

안녕하세요 클리커 운영자입니다.


클리커에서 광학문자인식(OCR) 패키지를 사용하여 이미지에 들어 있는 문자들을 인식하는 방법을 소개하고자 합니다.


이미지로부터 문자를 인식하기 위해 많이 사용하는 테설렉트(Tesseract) 활용하여 인식을 하는데요. 먼저 테설렉트가 클리커를 사용하고 있는 피씨에 설치가 되어 있어야 합니다.


사용 절차를 간단하게 소개해 보겠습니다.


1. 먼저 테설렉트(Tesseract) 를 설치합니다.


https://github.com/UB-Mannheim/tesseract/wiki


직접 다운로드

tesseract-ocr-w64-setup-v5.0.0-alpha.20210506.exe



2. 다운로드 받은 파일을 실행하여 설치를 합니다.





3. 설치된 파일에 대한 경로를 환경 변수에 등록합니다.





4. 한글 인식을 위해 미리 학습된 모델 데이터를 다운로드 하여 테설렉트가 설치된 폴더에 가져다 놓습니다.


https://github.com/tesseract-ocr/tessdata





위의 빨갛게 표시된 파일을 다운로드 하여  아래의 위치에 가져다 놓습니다.







5. 위에서 설치한 테설렉트(Tesseract)를 Wraping하여 사용할 두개의 파이썬 패키지를 클리커 상에서 설치합니다.


먼저 클리커를 실행하여 스크립트 유닛에서 아래의 명령어를 실행하면 설치가 됩니다.


!pip install pytesseract

!pip install pillow





5. 위에서 설치된 패키지들을 활용하여 이미지로부터 문자를 인식하는 레시피를 만들어 만들어 실행해 보겠습니다.


from PIL import Image

import pytesseract


img= Image.open('c:/temp/test.png')

result= pytesseract.image_to_string(img, lang='kor')

print(result)






잘 안되는 경우 아래의 이메일이나 클리커 홈(https://chagaun.net)를 통해 문의하시면 됩니다.


chagaunnet@gmail.net

010-3563-5530


감사합니다.



data/test.png

전체목록