翻译技巧光学字符辨认技术:让电脑像人一样浏览
阶段①:采用新算法,检测准确高效
回过头来看,OCR技术教训了怎么的发展历程呢?早在20世纪60年代,IBM就末尾应用OCR技术完成各类文档的数字化,早期的OCR设施宏大而复 杂,只能解决洁净背景下的某种印刷字体。20世纪80年代,平板扫描仪的诞生让OCR进入商用阶段,设施更为笨重灵巧,可能解决的字体数量也增多,但对文 字的背景要求仍然很高,需求很好的成像品质。
因为人造场景下的文字辨认难度大,微软亚洲钻研院团队对相干技术和算法停止了针对性的优化和创新,从三个方面对文本检测技术停止了改进,并取得打破。通 常,OCR辨认的步骤可能分为两步:首先是文本检测(Text detection),将文字从图片中提取进去;然后,对文本停止辨认(Recognition),此次的打破次要是在文本检测环节的两个子阶段。
咱们也可能想象一下OCR在未来任务中的运用场景:每次任务会议后,无需再把白板上的探讨内容缮写上去,然后群发邮件布置义务,只需将白板用手机等智能设施拍照留存,系统便能主动辨认并分检出相干人员的后续任务,并将待办事项主动寄存到各自的电子日历中。
对CER的色彩增强效果示例
OCR让电脑“读”懂世界
文字类成绩空间划分示例
该算法根据文字自身的个性采用分治策略将原始成绩空间划分为6个子空间,每个子空间对应一类文字样本,分别命名为Long类,Thin类,Fill 类,Square-large类和 Square-small类(如下图所示),于是每个候选连通区域被划分到这6类中的一种。
在每个子空间中,微软亚洲钻研院团队创新天时用无歧义学习策略训练一个相应的浅层神经网络,作为该子空间的文字/非文字分类器,咱们可能将该神经网络看作是一个黑盒子,在通过大量学习之后,它便能较为准确的将文字与非文字分类。