联系人:
所在地:
海量语音数据的出现并且规模不断增长,对于语音识别,语音检索和内容分析提出了明确而迫切的需求。本成果是清华大学与科大讯飞长期研究成果与实际业务需求的高度融合基础的自主研发成果。技术成果可以分为三个部分,语音识别技术、语音检索技术,内容分析技术。语音识别完成了从数字信号序列到符号表示的转换,语音检索实现了针对用户查询的准确和快速检索,内容分析研究则在语义理解的基础上融合多维信息实现了针对海量数据的多维分析。本成果面向海量语音数据,有效整合上述技术,形成了对海量语音数据的深度管理和有效利用的整体性解决方案。该方案突破了传统客服中心平台上海量语音数据难以管理、无法利用的障碍,使得客服中心服务质量和运营效率大幅度提升。内容分析技术的应用还在向纵深发展,可以预见将在业务流程再造,营销方式改进等方面发挥越来越大的作用,最终使客服中心成为整体服务核心节点,促进其从成本中心向利润中心转化。 本成果创新性的提出了:(1) 基于降噪深度学习的语音端点检测技术,利用深度学习理论中的深度信念网络对多特征进行非线性融合,同时采用降噪深度神经网络,有效解决了噪声环境下的语音端点检测问题;(2)基于前后缀查询扩展的中文口语文档检索技术,利用语音识别的词典对查询词进行前后缀扩展,以及基于有限状态机的高效查询算法,提升了语音检索的效率和效果;(3)基于概率主题模型的口语文档多标签分类技术,采用本体知识库描述主题的先验知识,结合有监督的概率主题模型,实现了语音交互文档的内容理解和分析。 本成果研制完成的语音分析系统已在电信、保险、银行、电力、旅游服务等领域等二十余家单位的客服中心得到推广应用,实现了产业化的重要突破。作为一种颠覆性技术,语音分析系统将改变呼叫中心新的运营模式,对于包括电信、保险、银行领域在内各行业(例如:物流、电商)将产生极为重要的影响。语音分析系统可以帮助企业优化服务流程、增强客户满意度与忠诚度,并在现有的资源和信息基础上挖掘出更大的客户价值。预计语音分析系统的可见市场规模已经达到人民币10亿元以上,并有极大的潜力发展成为一个规模超过百亿,甚至千亿的新兴行业,其社会效益和经济效益将是巨大和深远的。