联系人:
所在地:
该项目为横向合作项目。 该项目设计、开发和完成短文本语言模型系统模块,并利用大规模语料样本训练出基于N-gram的语言模型,为短文本语言的语音合成、语音识别、文本分类与聚类、信息的索引和检索、内容的抽取和挖掘等提供基础的支撑功能,主要研究内容包括: 1.研究基于各种方法的语言模型,主要包括隐马模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy,ME)和条件随机场模型(conditional Random Field,CRF)等,重点研究N-gram语言模型。 2.设计和实现一套完整的短文本语言模型系统模块,主要是针对N-gram语言模型来设计语言模型系统模块。 3.语言模型系统模块将包括预处理、噪声去除、分词、语言模型训练、语言模型判别等基本子模块。 4.利用2亿条或更多条短文本数据,建立五元Ngram语言模型。 5.提供约定的接口,以方便于二次开发和应用。 研究单位:北京邮电大学信息与通信工程学院 项目负责人:徐蔚然 项目组成员:徐蔚然,刘刚,洪立印,彭君睿 结题时间:2014年3月25日