Tesseract的iOS应用与测评

Description

Tesseract 是目前github上开源的OCR库最多star的一个库,他支持多平台。

本文主要讲述测评与具体应用

  • 测评结果

然经过测评,该库达不到我心里的祈愿,几乎只能识别比较大的黑体字,而且,就算是黑体字也会识别出错。说白了,就是训练集里面训练量太少,训练量越多(如中文汉字都几百种字体),识别越准确。如果要用到ocr,则可以

  • 购买训练集(格式这个要对上,而且收集麻烦)
  • 用市面上付费的,百度ocr一大堆

点击下面阅读全文查看使用方法

Install

1
2
3
4
platform:ios, '8.0'
target 'OCRTest' do
pod 'TesseractOCRiOS'
end

Usage

1
2
3
4
5
6
7
8
9
10
11
- (void)tesseractRecogniceWithImage:(UIImage *)image compleate:(void(^)(NSString *text))compleate {
G8Tesseract *tesseract = [[G8Tesseract alloc]initWithLanguage:@"eng"];
//模式
tesseract.engineMode = G8OCREngineModeTesseractOnly;
tesseract.maximumRecognitionTime = 10;
tesseract.pageSegmentationMode = G8PageSegmentationModeAuto;
tesseract.image = [image g8_blackAndWhite];

[tesseract recognize];
compleate(tesseract.recognizedText);
}
  • 其中eng为语种训练集,使用的训练集需要提前导入:
    1.项目中新建文件夹:tessdata (用于装载语种训练集)

    2.将训练集放在该目录下

    3.将文件夹以folder资源形式拖到项目中

    训练集下载地址 注意分支,不同分支存放的训练集对应不同的版本

  • 可使用多训练集,只需要用下划线分开即可,如:eng_chi_sim(其中chi_sim为中文简体)