strace로 추적해보니 신기한(?) 파일 발견
eng는 그냥 data인데
osd.traineddata는 Matlab v4 mat-file로 나온다. 맞나.. 우연인가?
$ ls -alh /usr/share/tesseract-ocr/4.00/tessdata 합계 15M drwxr-xr-x 4 root root 4.0K 12월 21 10:48 . drwxr-xr-x 3 root root 4.0K 5월 30 2023 .. drwxr-xr-x 2 root root 4.0K 5월 30 2023 configs -rw-r--r-- 1 root root 4.0M 9월 16 2017 eng.traineddata -rw-r--r-- 1 root root 11M 9월 16 2017 osd.traineddata -rw-r--r-- 1 root root 572 2월 9 2022 pdf.ttf drwxr-xr-x 2 root root 4.0K 5월 30 2023 tessconfigs $ file *.traineddata eng.traineddata: data osd.traineddata: Matlab v4 mat-file (little endian) , text, rows 4294967295, columns 4294967295, imaginary $ tree /usr/share/tesseract-ocr/4.00/tessdata . ├── configs │ ├── alto │ ├── ambigs.train │ ├── api_config │ ├── bigram │ ├── box.train │ ├── box.train.stderr │ ├── digits │ ├── get.images │ ├── hocr │ ├── inter │ ├── kannada │ ├── linebox │ ├── logfile │ ├── lstm.train │ ├── lstmbox │ ├── lstmdebug │ ├── makebox │ ├── quiet │ ├── rebox │ ├── strokewidth │ ├── tsv │ ├── txt │ ├── unlv │ └── wordstrbox ├── eng.traineddata ├── osd.traineddata ├── pdf.ttf └── tessconfigs ├── batch ├── batch.nochop ├── matdemo ├── msdemo ├── nobatch └── segdemo 2 directories, 34 files |
kor 은 15메가
[링크 : https://github.com/tesseract-ocr/tessdata]
+
실행하니 당연히(?) tesseract용 데이터가 없다고 오류가 발생한다.
혹시나 해서 변수는 확인해도 비어있고
pc에서 복사해서 설정해주니 ok
~/tesseract-main/build/bin# ./tesseract /home/root/a.png - Error in pixReadMemTiff: function not present Error in pixReadMem: tiff: no pix returned Error in pixaGenerateFontFromString: pix not made Error in bmfCreate: font pixa not made Error opening data file ./eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language 'eng' Tesseract couldn't load any languages! Could not initialize tesseract. root@imx8mpevk:~/tesseract-main/build/bin# echo $TESSDATA_PREFIX # export TESSDATA_PREFIX=/home/root/tessdata |
아래 이미지를 인식시킴(pc는 dpi가 이상하다고 인식을 못함)
의외로 잘 인식한다.
그런데 pc 에서는 인식을 이상하게 했지만 0.2초
i.mx8 에서는 인식을 잘했지만 1.6초. 흐음.. 실시간으로 돌리기에는 무리군..
# time ./tesseract /home/root/a.png - Error in pixReadMemTiff: function not present Error in pixReadMem: tiff: no pix returned Error in pixaGenerateFontFromString: pix not made Error in bmfCreate: font pixa not made Estimating resolution as 132 Warning:guessing pitch as xheight on row 1, block 1 1.MX8MP Evaluation Kit .MxeMP 1.50 GHz 2020-06-07 2848 MB RAM > Console Options wait, 65535 means Select Language <Standard English> Reset > Device Manager > Boot Manager > Boot Maintenance Manager Continue Reset ay=Move Highlight <Enter>=Select Entry real 0m1.646s user 0m1.578s sys 0m0.060s |
'프로그램 사용 > tesseract ocr' 카테고리의 다른 글
tesseract 버전별 차이? (0) | 2023.12.27 |
---|---|
tesseract on arm (0) | 2023.12.26 |
tesseract ocr (0) | 2023.12.21 |
번호판 인식(tesseract) (0) | 2021.10.14 |