[00125847]场景自适应智能语音降噪理论与技术

交易价格： 面议

所属行业： 广播电视

类型： 非专利

交易方式： 资料待完善

联系人：

所在地：

服务承诺: 产权明晰; 资料保密
对所交付的所有资料进行保密; 如实描述

咨询平台客服试试在线客服吧发布技术需求服务免费，交易还可领红包哦交易系统

技术详细介绍

随着智能语音技术的不断落地,语音处理需要面临的场景越来越多,这些场景的语音质量却难以保证,从而影响后续处理的效果。传统的语音质量增强方法难以应对用户场景多样、仅有单麦克风、语音采集方式不可控等挑战。具有场景自适应功能的单通道智能语音降噪,为应对上述挑战提供了手段,成为学术界和工业界近年来共同关注的热点之一。项目组在国家和江苏省自然科学基金等项目的支持下,以场景自适应为特色、以智能处理为手段、以单通道语音降噪为目标,取得了一系列科学发现和成就,如下所述： 1)语噪分离模型的构建和求解从加性语噪模型的机理出发,引入深度自编码机、矩阵分解等新型信号表示,构建可分离的组合模型,将语音和噪声用不同结构的子模型分别表出。通过设计新算法实现语音子模型的预训练和噪声子模型的自适应估计,达到场景自适应的效果,见代表性论文1和2。 2)噪声规律的挖掘和自适应滤除传统的语音降噪通常依赖于多麦克风通道、已知噪声信息、较高的信噪比等条件。通过对潜在场景噪声规律的挖掘和建模,该项目提出的稀疏低秩分解等算法可处理单通道的、未知噪声先验分布的语噪分离问题,有效解决了低信噪比环境下一大类噪声的自适应抑制问题,见代表性论文2、3和5。 3)听觉感知掩蔽效应的认知建模设计符合听觉感知掩蔽效应认知机理的目标函数,施加在基于深度神经网络的单通道语音增强中,利用估计所得干净语音谱计算噪声掩蔽阈值,进而联合计算噪声谱,得到感知增益进行自适应降噪。受益于感知掩蔽效应的认知建模和深度网络结构,所提算法能在降噪的同时保持较小的语谱失真,见代表性论文4。该项目从可分离模型、噪声规律、感知掩蔽效应等方面发现并利用潜在规律,在模仿人类听觉注意力机制方面具有科学意义。该项目取得了具有重要国际学术影响和信息安全应用特色的研究成果,受到同行的广泛关注,5篇代表性论文被发表在语音处理顶级期刊IEEE TASLP、国际会议ICASSP和中文核心期刊《声学学报》的论文多次引用和正面评价。相关理论和技术获授权国家发明专利2项、软件著作权1项、江苏省优秀硕士学位论文1篇。该项目提出的场景自适应理论与技术已用于提高语音后端处理任务的性能,如用于如下语音采集质量不可控的场景中。1)通过对特定说话人的“含噪声”语音自适应降噪,将其用于研制声纹克隆系统,模仿该说话人讲话,获2019年江苏省优秀人工智能产品创新奖、2017年国际安全极客大赛第三名;2018年受江苏省教育信息化中心邀请,现场演示解锁某广泛应用APP的声纹认证系统,开阔了我省青少年的网络安全知识视野,获“最佳创意奖”;此外,还应用在了其他信息安全场景。2)通过对测试语音自适应降噪,用于研制“抗噪”声纹识别系统,获2019年未来杯AI挑战赛华东赛区第一、三名;入围AISHELL Speaker Verification Challenge挑战赛决赛;受邀参加清华大学AI研究院听觉智能中心成立仪式并在声纹识别产业研讨会作学术报告。3)研制的“噪声环境”录音回放检测软件,用于提高随机声纹密码认证系统的安全性。

[00125847]场景自适应智能语音降噪理论与技术

技术详细介绍

推荐服务：