算法003.图像识别OCR

OCR

OCR概述和认识

什么是OCR

文字识别, 计算机视觉重要方向之一.

自然场景文字识别: STR
文档场景文字识别: DAR

行业应用：卡证票据信息抽取录入, 工厂自动化、政府工作医院等、在线教育.

OCR面临的难点和挑战 - 文字表现多样性

1.自然场景的文字表现变化很大

透视变换
尺度太小
文字弯曲
背景干扰
字体多变
都中语言
拍摄模糊
光照不足
2. 文档场景的文字密集，需要结构化输出
表格
手写
褶皱
盖章

3. 垂类众多，数据不足

OCR商业方案很难解决OCR垂类场景的所有问题
需要一个OCR套件，打通落地过程中每个环境，包括数据生产、算法选型和训练,以及模型预测部署.

药品铝塑日期识别、蒙语识别、标牌编号识别

4. 预测效率要求高

在cpu上可以运行，节约资源
在端侧运行，安全和方便部署
效率和效果的折中.

模型大小、推理速度

因此：一个OCR的工具库是很有必要的。