[00139533]基于音频语音信息处理技术的教育云视频内容大数据分析系统的研发与产业化

交易价格： 面议

所属行业： 软件

类型： 非专利

交易方式： 资料待完善

联系人：

所在地：

服务承诺: 产权明晰; 资料保密
对所交付的所有资料进行保密; 如实描述

咨询平台客服试试在线客服吧发布技术需求服务免费，交易还可领红包哦交易系统

技术详细介绍

一、课题来源与背景：近年来,随着移动互联网的高速发展,图片和视频取代文字成为主流的传播方式,视频的内容和展现形式也更加多元化,在直播、点播等基础场景上,又增加了短视频和实时音视频互动的新浪潮。当前的视频内容检索应用大部分是基于标题或标签的,海量的云视频内容由于没有与内容相关的标题和标签,需要人工标注与审核,这是制约海量视频大数据分析、检索以及相关增值服务最主要的瓶颈之一。而人工标注与审核不仅会造成较高的人力成本,其效率和准确性也很难满足审核需求。本项目的实施不仅将有助于建设一个具有可靠文本标注信息的大规模中文语音语料库,同时,还将为在线教育领域的广大客户提供能够商业化应用的自动字幕生成、基于语音的关键词检索、基于声纹的说话人识别等全新的在线视频服务与体验。本项目到位资金为470.59万元,其中自筹资金370.59万元,省科技厅资金100万元,省科技厅资金实际投入使用为98.61万元。二、技术原理及性能指标：本项目依托广州易方信息科技股份有限公司已有的超过5PB的海量视频数据资源,开展了中文语音识别技术、关键词识别技术、说话人识别技术语种识别以及情感识别技术、端点检测技术、说话人分段聚类技术的研究,开发了基于音频语音信息处理信息处理技术的教育云视频内容大数据分析系统。 1.中文语音识别：项目研发的中文语音识别系统主要由语音前端处理,特征提取,解码器等模块组成。 2.关键词识别：关键词检测是一种特殊的语音识别技术,其目的是在说话人的连续话语中辨认和确定一些由具体应用决定的特定词,而这些话语可以包括许多其它的词和其它各种非语音现象,例如：咳嗽声、呼吸声、咂舌声、音乐声、关门声、背景噪声和传输噪声。关键词检测与连续语音识别有着很多的差别。连续语音识别的侧重点是把连续的语音流转化成连续的文本流;关键词检测的侧重点则是将连续的语音流中特定的关键词检测出来。 3.声纹、语种、情感识别：说话人识别（又称为声纹识别）与语种方言识别和情感识别在技术原理上基本一致,都是从一段话中识别一个标签,这个标签可以是说话人的信息也可以是语种的信息也可以是情感的信息。 4.端点检测：本研究采用了基于能量的端点检测技术。即每一帧提取能量特征,然后结合上下文对能量特征进行建模来判定当前帧是否为语音。在第一遍端点检测步骤之后,还可再重新估计噪声和语音的能量阈值曲线,进一步提高性能。 5. 说话人分段聚类系统主要包含两个步骤：（1）说话人分割（又称为说话人分段）：说话人分割的目的是找到说话人改变时的转换临界跳变点,使得输入语音被分割成多个语音段：Seg1,Seg2,…,SegN,而每个语音段中仅包含单一说话人的语音数据。（2）说话人聚类：说话人分割后的语音段通常比较短,不适合直接在后端进行说话人识别或语音识别说话人自适应。说话人聚类的目的是将相同说话人的语音段聚集,使得每一类只包含一个说话人的数据,并使每个人的数据尽可能的在一类数据中,在说话人聚类时,说话人数目往往是未知的。说话人聚类后,语音段聚类成多个类别：Clust1,Clust2,…,ClustM,便于后端的说话人识别或说话人自适应。在本研究中采用由下而上的层次聚类方法来实现说话人聚类。三、技术创造性与先进性：目前在国内,深度融合于教育云视频服务系统的语音信息处理研究还不多,还需进行大量的创新研究进行关键性技术攻关。本项目中,实施关键技术比较突出的先进性和创新点如下：（1）结合现有的教育云端视频抽取得到的海量音频语音和同步字幕数据利用语音识别,语音分段,强制对齐,置信度筛选等技术计算自动得到一个大规模的语音识别训练数据库,用来训练语音识别系统的声学模型。（2）结合视频标题,字幕及领域信息利用互联网文本搜索技术和语言模型插值算法为每一个小的领域（如初中语文）单独制作语言模型,提高系统性能。（3）提出一种基于海量无说话人标记的语音数据和无监督学习的云视频说话人识别系统框架,可为说话人出现频率较高的视频打上特定的声纹标签。四、应用情况及存在问题：本项目结合易方信息现有的保利威视频云服务平台,为核心客户在云点播、云直播服务中,提供了增值服务,根据多家用户出具的用户使用报告显示,本项目系统成果各方面功能完善,能满足用户的需要。更为本项目互联网及移动互联网视频技术的示范性应用和产业化推广打下了坚实的基础。与同类产品相比较,本项目中自主研发的语音识别系统专门针对在线教育应用开发,达到了国内同行业的先进水平,同时可以不断的通过服务回收语音和文字数据,为易方信息未来的产品和系统积累大量的有标注数据。同时,由于易方信息的教育类数据语音语料库为直接利用托管云端视频自动生成,成本非常低,可以短时间内积累大量的有标注数据用来进行训练,因此系统的性能还有较大潜力。由此可以看出,本项目系统在使用场景,技术水品,数据积累,成长潜力与成本价格上综合考虑具备一定的优势。

[00139533]基于音频语音信息处理技术的教育云视频内容大数据分析系统的研发与产业化

技术详细介绍

推荐服务：