X为了获得更好的用户体验,请使用火狐、谷歌、360浏览器极速模式或IE8及以上版本的浏览器
关于我们 | 帮助中心
欢迎来到天长市科技大市场,请 登录 | 注册
尊敬的 , 欢迎光临!  [会员中心]  [退出登录]
成果 专家 院校 需求
当前位置: 首页 >  科技成果  > 详细页

[00140282]基于空间线索的音频关注度检测技术

交易价格: 面议

所属行业: 其他电子信息

类型: 非专利

交易方式: 资料待完善

联系人:

所在地:

服务承诺
产权明晰
资料保密
对所交付的所有资料进行保密
如实描述

技术详细介绍

课题来源: 湖北省教育厅科学技术研究计划优秀中青年人才项目:基于关注度的音频分级编码理论与算法研究(Q20112605)。 背景: 本世纪以来,社会经济发展迅速,但国际恐怖事件、公共安全事件频发,对人类生存和社会发展造成了前所未有的威胁。为了应对这些问题,各国对社会公共安全更为重视,纷纷通过大幅增加财政投入,大量部署安防系统,来增强对社会突发事件的应对能力。同时,我国正处于社会转型、经济转轨、社会矛盾凸显、国际斗争形势极其复杂的历史时期,社会经济发展迅速,但社会深层次矛盾日益凸现,群体事件或恶性事件呈现上升趋势。整体上,危机事件呈现高频次、多领域、大规模发生的态势,公共安全形势不容乐观。 因此,国家高度重视安防科技工作,在国家的大力推动下,我国安防产业发展迅速,从2001年约300亿的产业规模高速发展到2010年2300亿的产业规模,已成为国民经济的支柱产业之一。在上海世博会、广州亚运会等重大项目带动下,在政府投资的刺激下,在“平安城市”、“平安医院”、“平安校园”等重大工程深入开展的推动下,在道路交通、金融、教育和军队等领域的旺盛需求继续增加的拉动下,国内安防产业需求持续不断扩大,安防产业在未来几年仍将呈现快速发展态势,预计年均增长率达到15%左右,到 “十二五”末,即2015年,安防产业总产值将再翻一番。 安防产业的快速发展对安防监控技术提出了更高的要求。长期以来,视频监控是安防行业的主流,但随着安防监控系统的不断推广,传统的仅基于视频监控技术的安防监控系统已不能满足复杂多变的监控环境,例如眼镜、帽子、报纸等遮挡下,视频监控无法有效获取嫌疑人的信息。同时,音频监控技术越来越受到重视,越来越多的优质安防工程,例如公检法机构,以及机场、铁路、银行等重点单位的安防系统,都急需清晰的影音同步监控系统,音频监控已经成为安防行业的新亮点。这是因为音频信号可以提供一些视频监控无法提供的信息,例如犯罪嫌疑人的声音特征、作案工具声音特征(枪声)等,而且音频监控不受监控角度、监控环境光照条件以及隐藏遮挡等限制,具有可以全方位全天候记录监控环境声音的特点,因此音频监控技术在未来的安防中将会成为不可或缺的关键支撑技术。 目前,音频监控尚处于发展的起步阶段,在面临着良好机遇的同时,音频监控也在迎接着挑战。在视频监控中,监控人员可以通过电视墙同时观察多个摄像头的监控画面,这是因为视频图像之间不会相互干扰,但如果将多路采集的音频信号同时播放,监控人员是无法同时监听多个音频信号的,因为音频信号会相互叠加以至于无法收听,若要对各路音频信号分别进行人工监听,需要耗费大量的人力,同时,安防监控常常会持续很长时间,而人的神经系统会疲劳,无法长时间的保持较高的警觉性,进行长时间人工监听需要多人轮换,也会耗费大量人力。因此,如何在音频流中自动检测出能够吸引听者关注的感兴趣部分,然后进一步分析和处理,对于降低音频监控人力成本,提高音频监控可用性就显得更为迫切和重要。 心理学研究表明,人可以在各种不同的复杂环境中识别感兴趣的信息,例如在鸡尾酒会这样的复杂场景中,人耳可以在周围有很多人说话的情况下提取出一个特定人的语音,这被称为鸡尾酒会效应。而当前的自动检测算法性能在多种复杂环境下会显著下降,如噪声较大、场景变换等情况,与人类对复杂环境下的处理能力仍然相差甚远。因此,从生理学与心理学角度模仿人类对信息的理解与处理过程,是提高自动检测算法性能的可行路径。本项目即是基于这一思路开展相关研究,基于相关生理心理机制,模拟人类处理过程,建立相关计算模型,以使机器处理的算法的结果更接近人的主观心理感受。 人脑在处理接收到的外界信息时,并不是对所有输入信息进行相同的处理,而是首先通过选择性关注机制对输入信息进行筛选,足够显著的目标才会引起关注,并进行进一步的分析和处理。因此,可以通过模仿人类关注机制对信号进行关注度分析,然后进行更高级和更细节的处理。对信号的关注部分进行检测和分析需要借助关注度分析方法,关注度是一个神经生物学的概念,是通过人类知觉触发的对目标对象的精神集中程度。通过关注机制,人脑可以对感官系统采集的大量刺激信息只选择处理其中一小部分关注的内容。关注度分析技术正是模拟这一机制,对终端采集的信号进行分析,只选择其中一部分进行进一步的处理。 视觉和听觉是人类获取外界信息的主要途径,关注可分为视觉关注和听觉关注。当前基于视觉关注机制的关注度计算模型已可较好的应用于图像、视频的对象检测、识别以及编码中。 在此基础上,近年来基于听觉关注机制的关注度计算模型也成为研究探索的热点。听觉选择性关注机制研究表明,人类会对显著的音频信号产生关注,包括在时间、频率、方位上与其他信号显著不同的信号。而当前音频关注度计算模型通过提取音频信号特征仅包括帧能量、基音频率等时域和频域参数,无法对空间方位显著变化的音频引起的关注度进行计算建模。 因此,本研究在安防监控背景下研究音频关注度计算模型。基于心理学选择性关注理论,研究安防监控关注音频信号底层特征提取方法,研究多维度音频关注度计算模型,在当前基于时域和频域特征音频关注度计算模型基础上,引入可表征空间音频对象快速移动的空间线索,建立引入空间音频线索的音频关注度模型,对关注音频进行检测,将音频关注度计算模型由时频域拓展到空域。在此基础上,将关注音频检测应用于安防监控音频编码框架中,利用关注度检测结果控制增强层编码,在码率受限情况下,提升安防监控音频信号的编码质量。这对安防监控系统能够有效利用监控音频信息,使安防监控技术能够在更大范围内发挥关键作用,进而支持推动安防行业的迅速发展具有重要意义。听觉选择性关注机制研究表明,人类会对显著的音频信号产生关注,包括在时间、频率、方位上与其他信号显著不同的信号。而当前音频关注度计算检测方法通过提取音频信号特征仅包括帧能量、基音频率等时域和频域参数,无法对空间方位显著变化的音频引起的关注度建模。本项目基于心理学选择性关注理论,研究关注音频信号底层特征提取方法,研究多维度音频关注度计算模型,在当前基于时域和频域特征音频关注度计算模型基础上,引入可表征空间音频对象快速移动的空间线索,建立引入空间音频线索的音频关注度模型,对关注音频进行检测,将音频关注度计算模型由时频域拓展到空域。基于空间信息对关注产生影响的心理学原理,首次提出引入空间线索短时变化梯度来度量单个声源空间方位快速变化引起的关注,计算由各子带空间线索组成的空间线索矢量的短时变化均值作为空间线索变化梯度;利用空间线索矢量短时变化的方差来度量空间线索矢量总体变异程度,利用空间线索变化的统计值来计算同时发生的不同方向多声源引起的关注度。基于上述原理,建立了基于空间线索的音频关注度模型。 本技术已具有较高的成熟度,可用于安防监控、多媒体游戏等音频通讯领域,且由于采用了压缩算法安全性较高。本项目组负责人向国家音视频编解码标准组织(AVS)提交了基于本项目技术的技术提案,提案获得了标准组织评审专家的认可并被接受,成为AVS标准支撑技术。AVS标准为我国自主知识产权音视频编解码标准,打破了国外音视频编解码领域的专利技术垄断,为我国企业节省大量专利费用。 本项目技术可显著降低音频信号传输所需网络带宽和存储空间,在多家企业的产品及项目中得到应用,为企业节省了网络设备成本和存储设备成本,产生了较明显的经济效益。 本项目技术已在省内外多家企业得到应用,并且随着AVS标准技术的进一步推广,本技术必然将会得到更为广泛的应用。此外,本技术除了可以应用于音频安防监控中意外,还可以广泛应用于远程会议系统、游戏系统、虚拟现实系统等诸多领域。无

推荐服务:

Copyright  ©  2019    天长市科技大市场    版权所有

地址:滁州高新区经三路

皖ICP备2023004467