主办单位: 共青团中央   中国科协   教育部   中国社会科学院   全国学联  

承办单位: 贵州大学     

基本信息

项目名称:
基于身份验证的声音识别系统的开发
小类:
信息技术
简介:
本作品旨在通过预先输入声音文本,经过声音预处理系统后再通过特征信号提取系统,提取出能表征说话人身份的特征参数,再利用提取出的特征序列根据一定的数学算法为说话人建立声音库。当说话人再次录入声音时,系统会自动进行数据库检索,根据匹配结果识别判断该说话人。特征提取方面,我们采用动态MFCC和静态MFCC相结合的方法;模板匹配方面,主要采用基于经典的BP算法的神经网络识别模型,并在算法方面探索改进和优化。
详细介绍:
本作品旨在通过预先输入声音文本,经过声音预处理系统(滤除杂、噪音)后再通过特征信号提取系统,提取出能表征说话人身份特征的特征参数,再利用提取出的特征序列根据一定的数学算法为说话人建立声音库。当说话人再次录入声音时,系统会自动进行数据库检索,根据匹配结果识别判断该说话人身份。 本作品主要由声音预处理部分、特征提取部分、模式匹配部分组成。声音预处理的目标是将原始语音信号经过一些特定的处理手段,如采样量化、预加重处理、取音框、加框再通过低通滤波器,处理成为利于系统识别的可处理信号;特征提取方面,由于单一的特征参数无法很好的表达说话人的信息,我们采用动态MFCC( Mel频率倒谱系数)和静态MFCC相结合的方法,以在识别率上达到突破。模板匹配方面,我们主要采用基于经典的BP算法的神经网络识别模型,并在算法方面探索改进和优化,以期达到很好的匹配效果。 我们旨在通过编程操作,最终实现我们的声音识别系统,达到预期的效果指标。

作品专业信息

设计、发明的目的和基本思路、创新点、技术关键和主要技术指标

目的:普遍意义上声音识别的概念是指说话人识别。说话人识别包括说话人辨认和说话人确认两个方面。说话人辨认是一对多的分析过程,即判断出某段语音是若干人中哪一个所说,主要应用于刑侦破案、罪犯跟踪、国防监听等。说话人确认是一对一的确定过程,即确认某段语音是否属于指定的某人,主要应用于证券交易、银行交易、个人计算机声控锁、身份证、信用卡等。基于声音识别系统更广泛快速的应用于日常生活中的身份验证,并且对于推广生物特征识别技术具有重要的意义。因此,我们的研究范围确定为以说话人确认为目的的文本相关型的声音识别系统,主要目的就是提出和设计开发能够快速准确识别不同个体的可行方案。 基本思路:声音识别技术属于生物特征识别技术,是一种根据语音波形所反映的说话人生理和行为特征的语音参数技术。基本原理就是特征提取和模式匹配。识别的核心是预先录入声音样本,并提取每个样本独一无二的特征,建立特征数据库,使用时将待检声音与数据库中的特征进行匹配,通过分析计算,实现说话人识别。声音识别技术的关键在于对各种声学特征参数进行处理,并确定模式匹配方法。 创新点:声纹识别主要有两大技术关键:特征提取和模式匹配,我们的创新点便在这两个方面。首先,在特征提取方面,由于单一的特征参数无法很好地表达出说话人的信息,我们采用动态MFCC和静态MFCC相结合的方法,以在识别率上达到突破。其次,我们把基于经典BP算法的识别率相对比较高的人工神经网络应用在模板匹配方面,并在算法方面探索改进和优化,以期达到很好的匹配效果。

科学性、先进性

我们在分析了各种方法的利弊后,决定采用能够反映人对语音的感知特性的 Mel频率倒谱系数作为特征参数,主要利用静态MFCC和动态MFCC相结合,以期达到最佳的提取效果。标准的 MFCC只反映了语音参数的静态特性 ,而人耳对语音的动态特征更为敏感 ,一阶差分 MFCC是一种动态参数 ,有较好的噪声鲁棒性。因为它提取在一定程度上模拟了人耳对语音处理的特点 ,而且还具有一定的抗噪性 ,进一步地挖掘出说话人语音背后的隐性个性差异 ,识别性能优于LPCC等其他方法。 人工神经网络是一种广泛应用于数据分类与预测问题中的一种非线性模型,我们采用它为声纹识别模型。BP算法是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络之一。BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。基于以上分析,我们决定采用经典的BP网络,以期达到最佳的匹配效果。

获奖情况及鉴定结果

该作品获得2010年度郑州大学创新实验项目资助

作品所处阶段

实验室阶段

技术转让方式

作品可展示的形式

模型、现场演示

使用说明,技术特点和优势,适应范围,推广前景的技术性说明,市场分析,经济效益预测

与其他生物识别技术,诸如指纹识别、掌形识别、虹膜识别等相比较,声纹识别具有不会遗失和忘记、不需记忆、使用方便准确、经济及可扩展性良好等众多优势,可广泛应用于安全验证、控制等各方面,特别是基于电信网络的身份识别。 它有着广阔的市场应用前景,通过SR技术,可以利用本身的生物特性进行身份鉴别,例如为公安部门进行语音验证、为一般用户提供防盗门开启功能等等。 比尔·盖茨认为:“以人类生物特征(指纹、语音、脸像等)进行身份验证的生物识别技术,在今后数年内将成为IT产业最为重要的技术革命。”在世界范围内,声纹识别技术正广泛应用于诸多领域。截止到去年初,声纹识别产品的市场占有率为17.8%,仅次于指纹识别和掌形识别。目前,我国市场尚属启动阶段,其发展空间更为广阔,在金融、证券、社保、公安、军队及其他民用安全认证等行业和部门有着广泛的需求。 该作品以期能在校园内部实现预期的效果,并能在师生中广泛推广和应用。

同类课题研究水平概述

19世纪60年代,美国的联邦调查局在贝尔实验室的帮助下,把声音进行分类。贝尔实验室的工程师劳伦斯·科斯塔逐渐相信声音图谱或声纹(他命名的)能够提供一种有效的个人识别方法,最早提出了“声纹(voicePrint)的概念并提出了基于模式匹配和概率统计方差分析的声纹识别方法,从而形成了声纹识别研究的一个高潮,其间的工作主要集中在各种识别参数的提取、选择和实验上,并将倒频谱和线性预测分析等方法应用于声纹识别。70年代末至今,声纹识别的研究重点转向对各种声学参数的线性或非线性处理以及新的模式匹配方法上。近几年,声纹识别技术己逐渐走出实验室,在个人身份识别、刑事侦破中得到应用。 在国外,AT&T研制的基于声纹识别技术的智慧卡(smartcard)己应用于自动提款机。欧洲电信联盟于1998年完成了CAVE计划,并于同年又启动了PICASSO计划,在电信网上完成了声纹识别;同时,Motorola和Visa等公司成立了V一commerce联盟,希望实现电子交易的自助化,其中通过声音确定人的身份是此项目的重要组成部分。 国内声纹识别技术则主要应用于司法鉴定,例如上海思壮信息技术有限公司的Vls声纹分析鉴定系统;还有IP呼叫系统,比如南京北极星软件公司的FinesuPP0rt系统中就用到了声纹技术。 目前声纹识别技术的识别率,T-NETIX公司的SPeakEZ达到94%一95%,日本岩井公司在此基础上研制的同类产品据称其识别率已达到99.8%。根据最近的报道,国内的北京得意音通技术有限责任公司开发的“得意”身份证开发工具据其自称辨认和确认准确度都可以到达接近100%。
建议反馈 返回顶部