OCR概述和认识

什么是OCR

文字识别, 计算机视觉重要方向之一.

  • 自然场景文字识别: STR
  • 文档场景文字识别: DAR

行业应用: 卡证票据信息抽取录入, 工厂自动化、政府工作医院等、在线教育.

OCR面临的难点和挑战 - 文字表现多样性

1.自然场景的文字表现变化很大

  • 透视变换
  • 尺度太小
  • 文字弯曲
  • 背景干扰
  • 字体多变
  • 都中语言
  • 拍摄模糊
  • 光照不足

    2. 文档场景的文字密集,需要结构化输出

  • 表格
  • 手写
  • 褶皱
  • 盖章

3. 垂类众多,数据不足

  • OCR商业方案很难解决OCR垂类场景的所有问题
  • 需要一个OCR套件,打通落地过程中每个环境,包括 数据生产、算法选型和训练,以及模型预测部署.

药品铝塑日期识别、蒙语识别、标牌编号识别

4. 预测效率要求高

  • 在cpu上可以运行,节约资源
  • 在端侧运行,安全和方便部署
  • 效率和效果的折中.

模型大小、推理速度

因此: 一个OCR的工具库是很有必要的。