OCR***版,OCR全称是光学字符识别技术(Optical Character Recognition,简称OCR)。我公司的印刷体文字识别系统识别率达到或超过99.5%。
这是针对***单位、企业及有文字录入需求的个人用户,在日常的工作中,快速的对书刊、报纸、公文、宣传页等印刷稿件中内容进行录入的应用需求而推出的。
b. OCR SDK版,OCR SDK是光学字符识别二次开发包(Optical Character Recognition Software Develop Kit,简称OCR SDK)。OCR SDK为其它程序使用汉字识别提供了编程的接口。它提供了Windows标准的Dll方式调用,用户可以通过Dll中的函数调用SDK中的汉字识别功能,实现系统集成。
注意:市场上出售的手写板等是“动态”(联机)手写汉字识别,我们现在开发的OCR是“静态”(脱机)印刷体、手写体汉字识别。“静态”手写汉字识别在文字识别领域公认是***高峰、***难克服点,而且“动态”识别与“静态”识别的应用范围完全不同。“动态”识别只相当于一种输入法,“静态”识别不仅仅是一种输入法,它还应用于更广的范围。
2.系统特色
a. 本识别技术的特色是“不采用行扫描,历遍位图中的所有点”。采用汉字结构分拆假设法、抽取线条整形法等算法,计算原始点阵的笔画穿透数目,从而确定方向线素特征,从汉字笔画描述库中检索出汉字。为提高识别准确性,还采用了周边四角特征、任意连续三点特征抽取、轮廓描述等辅助算法来进行检验。
b. 使用流线式扫描并识别,扫描识别一键OK。
3.运行环境
运行环境 Windows 9x/Me/NT/2000/XP
***低配置 CPU 300 MHZ以上,64M内存以上(建议128M以上)
4.技术、质量概述
识别速度:在PIII 1.2G处理器256M内存的PC机上,4至6秒/A4页。
识别字体:全自动识别宋、仿宋、楷、黑、圆、隶书等百余种中文简体,英文、数字、图片混排的稿件。
识别语言:简体中文
单字识别准确率:印刷体汉字≥99%
联想识别准确率:印刷体汉字≥99.5%
支持文件格式:BMP、TIF、TIFF、JPG、JPEG、PCX、TGA、DIB、EMF、WMF。
输出格式:TXT、RTF。
识别要求:5号字体以上的印刷材料,可选择扫描分辨率为300dpi以上,字体越小要求分辨率越高。
其它功能:自动倾斜更正、去除指定颜色、保留指定颜色、灰度处理等。
支持硬件:普通扫描仪、名片扫描仪、逐行扫描笔、数码相机、带数码相机功能的手机等。