基本信息
- 项目名称:
- 盲人的眼睛--基于windows操作系统的智能阅读器
- 来源:
- 第十二届“挑战杯”省赛作品
- 小类:
- 信息技术
- 大类:
- 科技发明制作B类
- 简介:
- 由于盲人视觉能力的缺失,他们丧失了最直观的信息获取方式。本着“给盲人一双眼睛,给盲人一个未来”的团队宗旨。我们研制盲人智能阅读器系统。该系统由图像采集系,复杂版面识别,图像拼接,OCR识别和语音生成组成。综合了模式识别,复杂版面识别理解,图像拼接,OCR识别,语音识别等前沿技术。该阅读器操作简便,汉字识别率高,能够识别不同新闻块并区分,用户阅读体验好。能够满足盲人朋友的实际需求。
- 详细介绍:
- 由于盲人视觉能力的缺失,他们丧失了最直观的信息获取方式。以至于被边缘化,无法融入社会这一严重后果。本作品本持“给盲人一双眼睛,给盲人一个未来“的宗旨,为解决盲人不能像正常人一样阅读印刷品的问题而设计的具有人文关怀的高科技产品,该作品必将为盲人回归社会,实现"平等、参与、共享"创造条件! 目前,关于图像检测处理的研究很多,印刷体汉字OCR识别和语音合成技术比较成熟,但是关于报纸文刊等排版复杂的特征识别,印刷体汉字图像拼接处理研究还处于起步阶段。市面的盲人阅读器还不是很多,由于OCR识别对于图像有较高的要求,已有的产品大部分采用扫描技术采集图像;与此同时,国内外目前已有的盲人阅读器还存在造价昂贵、体积大、携带困难、操作复杂、识别率低等问题。因此,新型盲人阅读器及与之适应的新算法的研发已成为必然。 盲人阅读器功能的实现,对文字识别和语音合成两项软件技术有很高的要求。目前主流文字识别系统对于图片非常敏感,图像的质量严重影响文字识别率,并影响后续语音输出的正确性,而语音输出部分的准确率及自然度等又会直接影响到用户是否能得到正确的信息。本作品主要由硬件图像采集系统和软件识别处理系统组成。系统运行基本过程为:硬件图像采集系统自动采集报刊等纸质文字图像,然后传输给软件处理识别系统进行图像数据分析处理,检测报刊边沿,并同时检测是否含有标题,综合返回一个指令,指挥硬件系统下一步操作。寻找到多视场的标题信息之后进行标题的完整图像拼接,送入OCR识别,语音播报,让阅读者选择是否阅读该片文章。如果希望阅读,那么拍摄该篇文章正文,进行完整正文拼接,送入OCR识别,语音播报;否则,则继续寻找标题。同时为方便盲人,程序内部设置了语音提示系统。 本作品的创新部分:①图像采集时采用了网络摄像头来采集文字图像,以达到低成本和作品便携的目的;②标题正文提取时采用了印刷体汉字标题与正文特征提取的方法,并提出了基于数学形态法和边界动态跟踪的印刷体汉字标题与正文提取算法思路并实现该算法;③使用了改进图像匹配算法后的图像拼接技术;④使用了OCR印刷体汉字识别方法;⑤TTS技术(语音生成)。 与此同时,该作品还具有众多后期发展延伸潜力,如便捷式、阅读更加复杂排版的纸质媒介印刷体汉字、与互联网互联、增加盲文输入、增加存储功能等,这些都是本作品基于现状的下一步发展方向和目标,以更好的服务盲人,服务人民。
作品专业信息
设计、发明的目的和基本思路、创新点、技术关键和主要技术指标
- 创新点:1.复杂版面1.具有语音提示操作功能;2.具有拼接功能; 3.可采用网络摄像头;4.图像区域采集,使采集方便;5.有导轨系统;6,位置检测; 技术关键:1.图像聚焦清晰;2.图像平整几乎没有畸变3.环境光线近似平行光;4.拼接技术。 摄像头分别率可低至CIF(320X240);字号可小至5号;识别率(估计)高于99%;软件运行环境:windows XP 操作系统,装有Office2003完整版(包含Microsoft Office Document Imaging),Microsoft Speech SDK 5.1;
科学性、先进性
- 本作品采用了全新的复杂版面识别算法,可以成功的将视场内的标题和正文进行区别与提取,经过测试,该算法鲁棒性好,每张图的时间代价为0.5秒;本作品的拼接算法,改进了传统的SIFT算法,让特征点的匹配更加准确快速,并在图像融合上采用了新的办法,让融合效果更加清晰,分开的文字也能融合成完整的文字。其时间代价仅为1.5秒。
获奖情况及鉴定结果
- 无
作品所处阶段
- 中试阶段
技术转让方式
- 独家许可
作品可展示的形式
- 实物产品,现场演示,图片
使用说明,技术特点和优势,适应范围,推广前景的技术性说明,市场分析,经济效益预测
- 技术特点和优势:1.具有图像矫正;2.图像拼接;3.语音提示;4.位置检测; 适用范围:该作品适用于广大的盲人群体,如图片图像、广告、网页等阅读,导行,指路,提示语音接近自然语言,盲人教育,盲人写作等。 应用前景、市场分析和经济效益预测:本作品不仅能满足盲人对知识最基本的渴求,也能体现出社会主义大家庭对盲人的人文关怀,符合构建和谐社会的总基调。结合目前宏观政策、经济、社会、技术等方面的因素,该作品在国内市场有着较好的前景。 在技术上,汉字识别率、便捷性等方面都领先于国内同类产品,有较强的市场竞争力。与此同时,可以与民政局、残联、基金会等相关政府机构合作,作为公益产品推向盲人大众。通过前期的社会调研,证明了该发明的实用性和迫切性,并获得相关受访者的高度评价。本发明可作为一个基本的技术平台,向深度和广度延伸,有着广阔的市场。目前市面上已有的产品价格昂贵,普及率极低,我们的产品以低价格、高质量的优越性价比在国内外市场上将具有很强的竞争能力,有望在国内外市场上占有较大的份额。
同类课题研究水平概述
- 1)、1975年Kurzwil发明了第一台KRM(Kurzweil Reading Machine),它可以人声阅读任意字体的普通书籍、杂志和其他印刷文件。它的弊端是阅读器体积大,不方便移动,盲人要使用它就要受到空间的限制。 2)、著名发明家雷伊•库尔兹维尔在美国国家盲人协会的资助下发明了一种能使盲人阅读任何文本的装置,它包括数码相机、与相机结合在一起的小型计算机和识别图像的独特软件。阅读器售价为3500美元。系统售价昂贵,不适用于盲人大众和市场推广。 3)、浙江大学亿脑制造戴在手指头上的盲人阅读器(Touch Reader),集成了光电扫描仪、电子翻译和盲文生成三大功能,将之套在食指上后,直接用它去“触摸”书本等文字信息,扫描仪会自动将掠过的文字扫描识别,然后通过一个点阵将这些文字转换为凸起、凹下的盲文——由于点阵分布在指套的里层,所以手指头能感应到它的形状变化,从而让盲人朋友识别出这些盲文,进而理解其对应文字信息的意思。由于是单个字的识别,识别率比较低,只适用于能阅读盲文的盲人。 (一)、使用“盲人阅读器”关键词对CNKI中国知网中国期刊全文数据库,万方数据数据库,维普数据库进行搜索,获得8篇相关文献资料。通过对这些文献的阅读,筛选出1篇具有指导价值和比较研究价值的相关文献: 1)、 清华大学研制成功“盲人电子阅读器” 中国科技信息 2003年21期 (二)、使用 "OCR"关键词对CNKI中国知网中国期刊全文数据库进行检索,命中473篇文献,通过对这些文献的阅读,筛选出以下对本文具有指导价值和比较研究价值的相关文献: (1)、 利用OCR 识别技术实现视频中文字的提取 陈义,李言俊,孙小炜 计算机工程与应用 2010年10期 2)、文本数字化图像OCR识别的准确度测度实验与提高 臧国全 图书情报知识 2010年03期 (三)、使用 "OCR"关键词对中文科技期刊全文数据库 (VIP--维普)数据库进行检索,命中770篇文献,,通过仔细阅读摘要其中以下对本文具有意义: 1)、 旧式文本的OCR二值化和图像预处理研究Maya R. Gupta Nathaniel P. Jacobson Eric K. Garcia 图象识别与自动化 2007(1).-14-22