主办单位: 共青团中央   中国科协   教育部   中国社会科学院   全国学联  

承办单位: 贵州大学     

基本信息

项目名称:
基于双目立体视觉的人机界面装置
小类:
信息技术
简介:
本装置基于双目立体视觉技术,通过在成本较低的市售视频采集装置上加装自制红外滤光片,对红外光源进行捕捉,实时计算目标物体在三维空间中的位置坐标,实现了实时高效的三维重建。本作品可作为底层接口对不同的应用进行扩展,可应用于涉及动作捕捉、空间定位、机器立体视觉等各类领域。
详细介绍:
本作品采用双目立体视觉中的两摄像机平行的方案作为理论基础。红外捕捉装置由价格低廉的市售摄像头组装而成,再加上自制的滤光片构成了硬件部分。红外发射装置是由IRL-715和简易电路组装而成。软件部分按帧对视频流进行处理并提取图像坐标信息,从而计算出三维坐标,由于算法经过简化,所以满足了实时性。本作品界面简易,操作简单,并且价格低廉,扩展性极强,可以出现在任何需要进行动作捕捉和空间定位的场合,具有极高的应用价值。 工作流程: 1、摄像机标定: 由于我们采用两摄像机平行的方案,所以摄像机的内外参数都在硬件组装的时候就可以计算出来,所以省略了摄像机标定这个步骤。在应用中,摄像机参数被写在程序里,直接参与三维重建的运算。这样的方案解决了每次使用系统前都需要对摄像机相关参数进行标定的问题,是用户的使用更加的方便。 2、图像获取: 我们调用相关的函数将视频流调如内存,由于我们只需要YUY2格式中的亮度信息,所以我们只提取亮度信息。使用红外滤镜和红外线光源后,获取的图片色彩单一,只有黑白两色,所以不用考虑噪音的干扰,也节省了一些图像预处理的时间。 3、特征点提取和立体匹配: 根据获取的亮度信息(0-255),我们就可以判断哪里是亮点,哪里是暗点。经过大量数据的分析后发现,在考虑光晕的情况下,光源的亮度值基本都大于180。所以我们将亮度值180设为分界点后,对图像进行处理,从而获取光源的图像坐标信息。由于我们只有一个光源,所以不需要进行立体匹配,以后根据不同的应用可以加入多点识别的立体匹配算法。 4、三维重建 根据特征点提取出来的图片信息和摄像头的相关参数信息,我们就可以用三维重建算法计算三维坐标。 应用领域: 我们将DCE的实际应用大体分为三大方面。动作捕捉、空间定位和机器立体视觉。 动作捕捉 通过处理目标物体的空间运动轨迹便可以实现一系列人机交互的功能,令计算机系统更加“人性化”。只提取两维信息可以实现常规无线鼠标的功能。将其三维信息提取,便可应用于时下较为流行的3D游戏,通过实现游戏控制的三维鼠标,来模拟空间立体效果,更真实的让玩家体验到身临其境的感觉。不仅如此,当前我们的掌上电脑——手机,却始终没有出现鼠标这个概念。将DCE置于手机的一侧,用户只需配带一个红外发射装置,在其周围写写画画就可以实现手机鼠标。这将加速推动智能化手机的发展。另外,如果我们将程序中识别的算法写的更精细一些,即可以将DCE引入工业化生产的领域,它将会在3D场景的三维动作采集,实时的机械手控制装置中发挥其显著的作用。 空间定位 将DCE自身的空间坐标系与目标物体的坐标系进行坐标转换,就可以得到它们在空间上的相对位置关系,令计算机系统更加“智能化”。基于这个原理,我们将红外发射装置安置于DCE可视范围内规定出的一个键盘区域中,并对这个区域进行实时监控,根据发射红外线的光源位置不同,即可接收不同的键盘消息,从而实现无线虚拟键盘。随着智能化笔记本不断的飞速发展,笔记本的轻便性已渐渐为人们所重视。将DCE实现的无线虚拟键盘应用于其中,不但能令笔记本的厚度大大减小,更能在一定程度上解决它的散热问题。这将为便携式电脑的发展做出具大的贡献。 机器立体视觉 由于我们可以不断的接收外界发来的信号,并实时的进行三维坐标的还原。这样使DCE和机器结合,将会令机器持续的感知物体在三维空间的变化,产生立体视觉,令计算机系统的感知范围“立体化”。根据这个特点,佩带上DCE的机器人将会像人类一样不断的“做出判断”,实时的感觉不同物源的空间位置,做出跟随的动作。通过不断的改进,必将满足人类对它的渴望与需求。正如当今车载GPS系统的盛行,将DCE安置于汽车将更加的方便道路交通管理。每辆车的四个车灯处都添加红外发射装置,在车辆行驶的过程中,DCE会实时的观测周围车辆的距离,并作出判断,一定范围内发出报警讯号,以提示驾驶员做出相应的减速、刹车动作。在道路交通事故日益严重的今天,拥有这样的车辆警报系统将更有效保证道路的安全驾驶,避免了很多灾难的发生。

作品图片

  • 基于双目立体视觉的人机界面装置
  • 基于双目立体视觉的人机界面装置
  • 基于双目立体视觉的人机界面装置
  • 基于双目立体视觉的人机界面装置
  • 基于双目立体视觉的人机界面装置

作品专业信息

设计、发明的目的和基本思路、创新点、技术关键和主要技术指标

发明目的: 为了实现实时三维重建,让计算机可以用数码摄像装置直接捕获和分析用户的动作,从而获取信息,使人机交互方式更为多样化,操作更方便,我们发明了基于双目立体视觉的人机界面装置。 基本思路、技术关键: 要实现实时的三维信息还原,技术关键在于如何能让计算机在极短的时间内识别出目标物体并且立体匹配,也就是简化立体视觉的实现流程。经过分析,只要将色彩信息进行过滤,只保留我们想要的目标物体的信息就可以解决这个问题。所以我们自制了可以滤去可见光的滤光片,安装在摄像头的内部。这样只保留红外线图像信息,就可以不用考虑可见光的干扰。 创新点: 1、使用红外光源作为捕捉对象,并且使用自制的滤光片滤光,可以忽略可见光的干扰,不用考虑红外线以外的信息,也不再受目标物体外形的限制,从而简化双目立体视觉的特征点提取和立体匹配的部分,提高了程序的运行效率,在保证实时性的同时不给CPU带来太大的负担,目前没有同概念的产品。 2、本作品摒弃了以往立体视觉中使用高档高精度摄像机作为接收装置,而是采用市售视频装置,大大降低了系统的成本,使本作品更容易被大众接受,实属创新。 技术指标: CPU占用率:6%以下(英特尔 赛扬 双核处理器T1400) 测量范围:根据两摄像头间距不同,量程可变 误差:当两摄像头间距为5cm时 10cm-50cm 误差为5%

科学性、先进性

概念创新: 由于设备的局限性导致现在计算机很难短时间内从色彩丰富的图像信息中捕捉目标物体。但是彩色CCD可以看到人眼看不到的红外线,所以我们自制了红外滤镜,滤去可见光后再对红外光源进行捕捉,从而极大的简化了模式识别的算法,提高了程序的运行效率,基本保证了实时性,这时本作品的特色。 简易便携,扩展性强: 系统设备相较数码相机更为轻便,体积小,易安装使用,可以出现在任何需要进行动作捕捉或者三维非精确测量的场合,能够转型到很多领域,如模拟鼠标键盘、游戏控制信号、教学辅助激光笔等用品的功能,十分容易普及。本装置作为三维还原接口可以扩展到很多领域,扩展性极强。 价格低廉: 目前数字近景测量系统比较流行的是选取高档数码相机,但这样的设备价格也比较昂贵,数码相机的单价就在1000元左右,而本项目的设备价格十分低廉,使用市售视频装置连带自制的红外滤镜和红外光源,整套系统价格低于200元,适用于民用用途。

获奖情况及鉴定结果

2009年“挑战杯”吉林省大学生课外学术科技作品竞赛 科技发明制作类 一等奖

作品所处阶段

实验室阶段

技术转让方式

作品可展示的形式

实物 磁盘 现场演示 图片 录像 样品

使用说明,技术特点和优势,适应范围,推广前景的技术性说明,市场分析,经济效益预测

本作品的特点是操作简单,易上手使用。装置便携易安装,可以出现在任何场合。扩展性强,应用范围极广。价格十分低廉,可以被大众接受。 本作品作为底层三维还原接口,可以通过调整两摄像头间距来调整有效范围,并且配合不同功能的软件,应用于各种需要进行实时三维还原的领域。 通过处理目标物体的空间运动轨迹便可以实现一系列人机交互的功能,如模拟鼠标的功能,更是可以处理三维信息,实现控制3D游戏的三维鼠标,甚至可以将鼠标这个概念引入手机。 将本装置自身的空间坐标系与目标物体的坐标系进行坐标转换,就可以得到它们在空间上的相对位置关系。基于这个原理,我们可以根据红外光源位置不同,发送不同的键盘消息,从而实现无线虚拟键盘的功能。 将本装置和机器结合,根据还原出的三维坐标,做出不同的判断,便可以让机器拥有实时的立体视觉,可见本装置可以用于机器人导航等领域,可以使机器更加智能化。

同类课题研究水平概述

从20世纪80年代至今,立体视觉的研究者们对立体视觉的各个层次进行了大量的研究,取得了一大批科研成果。现在国际上以计算机视觉为主题或主要以计算机视觉为主题的国际会议有国际计算机视觉会议(ICCV),国际模式识别会议(ICPR),国际计算机视觉与模式识别会议(CVPR),欧洲计算机视觉会议(ECCV)与亚洲计算机视觉会议(ACCV)。以计算机视觉为主要内容之一的国际刊物也很多,有IEEE Trans. On PAM1,Visual Image Computing, IJPRAI,Pattern Recognition等。 但是,随着计算机视觉研究的不断深入,人们发现了马尔视觉理论的局限性,这些理论、方法、算法在实际应用中并没有产生能完全取代人的视觉系统。无论是从视觉生理的角度,还是从实际应用方面来看,现有的立体视觉技术还处在十分不成熟的阶段,计算机立体视觉系统的研究面临着一系列技术难点: 1. 立体匹配作为立体视觉的核心,在理论上和技术上都还不完善。例如,如何选择合理的匹配特征,以克服匹配准确性与恢复视差全面性间的矛盾;如何选择有效的匹配准则和算法结构,以解决存在严重灰度失真、几何畸变、噪声干扰、特殊结构及遮挡景物的匹配问题;如何建立更有效的图像表达形式和立体视觉模型,降低立体匹配的难度等。目前也还没有一种可靠的通用的匹配方法。 2. 人类对自身视觉机理还不十分了解,人类是如何精选、获取和分析理解视觉知识的,至今还未充分搞清楚。 3. 立体视觉系统所需的计算量是非常庞大的,然而实用的系统对时间的要求是有一定限制的。在现阶段集成电路和特殊功能部件的发展还不能满足实时性的要求,这为立体视觉系统完全变为实用的通用系统设置了一大障碍。 由于国内外基于立体视觉的三维还原装置都是对可见光进行识别,并且算法十分复杂,所以实时的三维信息还原的装置并不多见。而用红外线作为光源进行动作捕捉更是凤毛麟角。在TED大赛上曾经出现过一位工程师,用红外线LED和WII遥控器制作了一个实时的三维动作捕捉装置,但并没有将三维信息进行还原,而国内尚为出现以红外线为捕捉对象的基于立体视觉的实时的三维还原装置。所以使用红外滤镜滤去可见光,用红外线光源作为捕捉对象的技术路线十分的新颖,在国内外都很少见。
建议反馈 返回顶部