|
形文通用表单识别软件
|
|
 |
|
|
形文通用表单要素识别组件是综合光学字符识别(OCR)、图象处理、模式识别和神经网络等软件技术,针对表单信息采集而研制的软件开发包;它通过参数定制的方式,有效提高产品的通用性,为应用层软件的二次开发提供了强有力的支持。
|
|
|
产品的组成 |
形文通用表单要素识别组件,主要由配置工具、识别引擎和测试工具三大模块所组成:
一、配置工具
配置工具是根据用户需要,在样本图像的基础上,定制表单的识别方案的应用程序;表单识别方案决定了表单识别的处理过程和处理方法,因此它包括识别处理所需要的各种信息。
二、识别引擎
识别引擎是根据表单识别方案和表单图像,进行识别处理,获取表单要素信息的软件模块。
三、测试工具
测试工具是用于测试表单要素识别效果的应用程序,使用它可以方便了解识别效果和快速统计识别的通过率。 |
|
技术原理 |
|
 |
|
产品的主要特性 |
一、识别特性
产品由表单样式识别和表单要素识别二大功能组成。
表单样式识别采用直线提取算法,快速提取表单的直线特征,然后根据直线特征进行样式识别和重叠处理,效果优异。
表单要素识别使用了先进的神经网络技术,具有良好的识别效果,尤其在手写体字符的识别上,与同类产品相比较,有着明显的优势。
二、定制特性
产品为表单要素识别提供配置工具,可以通过参数的方式定制表单要素的识别方法和识别过程,使应用开发商具备了自主的二次开发能力,使为最终客户快速展示识别效果成为可能。
三、适应特性
产品根据多年积累的表单要素识别的研发经验,针对表单的各种情况,进行了全面的归纳、分析和总结,使产品具有较强的适应能力,能适应较多表单要素识别的需要;对各种书写方式(如:手写、机打、印制),书写格式(如:连续、线隔、字隔、方格),书写样式(如:字体、颜色),可能出现的噪声,有着较为全面的考虑。
四、扩展特性
产品采用扩展性较强的结构设计,除内置的要素通用识别方法和要素专用识别方法可根据需要扩展外,还预留了要素定制识别方法的接口,在内置的通用方法和专用方法无法满足用户需要的情况下,可根据用户的特别需要定制特别识别方法。 |
|
技术指标及应用现状 |
|
目前OCR技术的基本应用现状是,机打或印刷的数字、英文和汉字的识别技术十分成熟,有良好的应用价值;规范书写的数字、英文、小字符集汉字(如大写金额)的识别技术较为成熟,有较好的应用价值;连续书写的英文和大字符集汉字的识别技术尚不成熟,应用价值不大。
根据实际应用及测试结果,本产品针对各类单字信息识别率可以达到如下指标:
印刷数字:99%
印刷英文:99%
印刷汉字:99%
手写数字:98%
手写英文:98%
手写大写金额:98%
在实际的应用环境中,目前针对北京地区支票的各要素识别率可以达到如下指标是:
支票号:99%
日期:94%
账号:98%
大写金额:90%
小写金额:90%
支付密码:86%
磁码:99%
整票识别正确率大于70% |
|
|