[00003280]基于词网络进行特征扩展的短文本主题模型挖掘方法
交易价格:
面议
所属行业:
分析仪器
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201610353388.2
交易方式:
完全转让
许可转让
技术入股
联系人:
许尔杰
进入空间
所在地:
江苏南京市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
一种基于词网络进行特征扩展的短文本主题模型挖掘方法,包括如下步骤:带权词网络构建步骤:文本预处理,对短文本语料库中的文本进行中文分词,并删除掉停用词;从中文分词后的文档中建立带权词网络,带权词网络中的节点是词语,节点之间的边是两个词语在同一篇文档中的共现关系,边的权重是在整个语料库中两个词语共现的次数;结束;短文本特征扩展步骤:将每条短文本的中文分词后包含的词语节点作为建立的带权词网络中的一个社团;主题挖掘步骤;将短文本特征扩一种基于词网络社团模块度的短文本特征稀疏性解决方法,从而解决LDA主题模型应用于短文本中效果不佳的问题。提升短文本主题模型的准确性。