ocr图像识别技术一文讲通OCR文字识别原理与技术全流程科普版( 四 ) _程序员

有点震惊，我拆字的时候，没有人跟我要求过这些规则。
举个小例子，这个例子非常小，假设你识别出来了2个字，你现在有2个字符的数据：

文章插图

请问，这两个字，是不是在处于同一行？
你通过肉眼无法判定，得计算。
这就需要你用代码编写算法处理。如果你数学不好，那可能还真的是一个不小的挑战。从图上看，你的眼睛可能几毫秒就识别出来了，但是计算机没有眼睛，只有大脑。它就等着你告诉它要怎么去算什么数据。
其实也好处理（话都让你说了，难也是你说的），看两个字在Y轴的重叠情况。如果重叠达到一定占比，那就可以认为这两组数据是处于同一行。

文章插图

其实字符与字符之间的关系还有很多情况。

文章插图

根据情况的不同，我们就可以做不同的判定。

文章插图

上图所示，如果文本1的矩形区域和公式1的矩形区域，在横向上有一定比例的重叠，那我们可以认为，它们是处于同一行。如果文本2的区域完全包含（重叠率100%）于表格1的区域中，那么我们可以认为文本2属于表格1 。同样，文本2和文本3在纵向的重叠率，可以作为它俩是否位于同一列的一个指标。
2.4.2 文本校正OCR识别的最终目的，是要获得一份准确的、结构化的文本内容。
单个字符识别，其实是各自为战，前后不商量。
就比如，遇到一个圆圈形状的字符图片。 OCR识别就犯了难，它是数字“0”？汉字“〇”？大写字母“O”？小写字母“o”？中文句号“ 。 ”？还是“Q”忘了加尾巴…… 。
啥都对，啥都不对。
所以，需要矫正……校正。这两个词，都是高频词，尤其拼音打字jiaozheng，容易出错。其实，也好分辨。看语境，如果我前后提到了“文稿”，那么是“校正”的可能性就大。如果我刚刚说了“牙齿”、“视力”、“角度”啥的，那么基本上就应该是“矫正”了。
OCR识别的最后一步校正也是一样。如果无法确定是数字“0”还是字母“o”，可以观察它相邻的几个字符，下面一图胜千言。

文章插图

单个字符识别不对没关系，后期智能校正可以结合语境来帮你纠正。这个步骤就叫做后处理。
我想， OCR流程介绍的差不多了。下面该总结了。
三、总结其实，我已经迫不及待地想睡觉了。但是，睡觉前，我还是想输出几个观点。
3.1 OCR的投入：自己开发 vs 调用第三方？需要企业领导视自身业务需求和研发能力来确定。
通过上面的流程讲解，其实我们也了解到，做OCR并不难，这在业界已经非常成熟了。如果，你的业务需求很单一，另外也有一两个喜欢研究技术的程序员（三年经验起），其实可以投入几个人、几个月搞一搞试试看效果。就算不成功，起码他们再跟第三方对接起来，也属于专业级别了。
那么，如果你的业务需求复杂多样，是不是就要用第三方服务了。也不一定，需求太复杂，通用的第三方平台，不一定能满足你的个性化需求。我之前遇到过一个例子，也是在教育行业。他们有一个场景是用在填空题手写答案上。一般的手写识别，你就算写的80%正确，它会给你智能纠正，输出字符。但是，教育行业不行，写错了就是写错了，不要纠正。比如，武术的“武”，学生如果右下角写成了“戈”那样多了一撇，不要输出“武”，要输出不是字，并记录下学生的错字图片。这一下，没有一家平台可以对接。其实，自己研发是可以做到的。但是，研发这玩意有什么用？只有自己用。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。

ocr图像识别技术 一文讲通OCR文字识别原理与技术全流程科普版( 四 )

ocr图像识别技术一文讲通OCR文字识别原理与技术全流程科普版( 四 )