ocr图像识别技术 一文讲通OCR文字识别原理与技术全流程科普版( 四 )


有点震惊, 我拆字的时候, 没有人跟我要求过这些规则 。
举个小例子, 这个例子非常小, 假设你识别出来了2个字, 你现在有2个字符的数据:

ocr图像识别技术 一文讲通OCR文字识别原理与技术全流程科普版

文章插图

请问, 这两个字, 是不是在处于同一行?
你通过肉眼无法判定, 得计算 。
这就需要你用代码编写算法处理 。 如果你数学不好, 那可能还真的是一个不小的挑战 。 从图上看, 你的眼睛可能几毫秒就识别出来了, 但是计算机没有眼睛, 只有大脑 。 它就等着你告诉它要怎么去算什么数据 。
其实也好处理(话都让你说了, 难也是你说的), 看两个字在Y轴的重叠情况 。 如果重叠达到一定占比, 那就可以认为这两组数据是处于同一行 。
ocr图像识别技术 一文讲通OCR文字识别原理与技术全流程科普版

文章插图

其实字符与字符之间的关系还有很多情况 。
ocr图像识别技术 一文讲通OCR文字识别原理与技术全流程科普版

文章插图

根据情况的不同, 我们就可以做不同的判定 。
ocr图像识别技术 一文讲通OCR文字识别原理与技术全流程科普版

文章插图

上图所示, 如果文本1的矩形区域和公式1的矩形区域, 在横向上有一定比例的重叠, 那我们可以认为, 它们是处于同一行 。 如果文本2的区域完全包含(重叠率100%)于表格1的区域中, 那么我们可以认为文本2属于表格1 。 同样, 文本2和文本3在纵向的重叠率, 可以作为它俩是否位于同一列的一个指标 。
2.4.2 文本校正OCR识别的最终目的, 是要获得一份准确的、结构化的文本内容 。
单个字符识别, 其实是各自为战, 前后不商量 。
就比如, 遇到一个圆圈形状的字符图片 。 OCR识别就犯了难, 它是数字“0”?汉字“〇”?大写字母“O”?小写字母“o”?中文句号“ 。 ”?还是“Q”忘了加尾巴…… 。
啥都对, 啥都不对 。
所以, 需要矫正……校正 。 这两个词, 都是高频词, 尤其拼音打字jiaozheng, 容易出错 。 其实, 也好分辨 。 看语境, 如果我前后提到了“文稿”, 那么是“校正”的可能性就大 。 如果我刚刚说了“牙齿”、“视力”、“角度”啥的, 那么基本上就应该是“矫正”了 。
OCR识别的最后一步校正也是一样 。 如果无法确定是数字“0”还是字母“o”, 可以观察它相邻的几个字符, 下面一图胜千言 。
ocr图像识别技术 一文讲通OCR文字识别原理与技术全流程科普版

文章插图

单个字符识别不对没关系, 后期智能校正可以结合语境来帮你纠正 。 这个步骤就叫做后处理 。
我想, OCR流程介绍的差不多了 。 下面该总结了 。
三、总结其实, 我已经迫不及待地想睡觉了 。 但是, 睡觉前, 我还是想输出几个观点 。
3.1 OCR的投入:自己开发 vs 调用第三方?需要企业领导视自身业务需求和研发能力来确定 。
通过上面的流程讲解, 其实我们也了解到, 做OCR并不难, 这在业界已经非常成熟了 。 如果, 你的业务需求很单一, 另外也有一两个喜欢研究技术的程序员(三年经验起), 其实可以投入几个人、几个月搞一搞试试看效果 。 就算不成功, 起码他们再跟第三方对接起来, 也属于专业级别了 。
那么, 如果你的业务需求复杂多样, 是不是就要用第三方服务了 。 也不一定, 需求太复杂, 通用的第三方平台, 不一定能满足你的个性化需求 。 我之前遇到过一个例子, 也是在教育行业 。 他们有一个场景是用在填空题手写答案上 。 一般的手写识别, 你就算写的80%正确, 它会给你智能纠正, 输出字符 。 但是, 教育行业不行, 写错了就是写错了, 不要纠正 。 比如, 武术的“武”, 学生如果右下角写成了“戈”那样多了一撇, 不要输出“武”, 要输出不是字, 并记录下学生的错字图片 。 这一下, 没有一家平台可以对接 。 其实, 自己研发是可以做到的 。 但是, 研发这玩意有什么用?只有自己用 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。