[00019499]一种基于文档内容和相互关系的主题检测方法
交易价格:
面议
所属行业:
分析仪器
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201710516534.3
交易方式:
完全转让
许可转让
技术入股
联系人:
林老师
进入空间
所在地:
浙江杭州市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明涉及一种基于文档内容和相互关系的主题检测方法,通过获取文档进行预处理,得到文档特征的共现矩阵和两两关系矩阵,基于此构建目标函数,迭代计算文档代表度矩阵、文档隶属度矩阵、词代表度矩阵及词隶属度矩阵,输出词代表度矩阵,其每一列对应一个主题,以每列中值最大的词作为描述该主题的关键词,获取用于描述主题的关键词。本发明文档聚类和词聚类的同时、联合进行比对各自聚类更加有效,同时考虑文档内容和文档之间的关系比起只考虑其中一种信息得到更加全面的模型,隶属度和代表度的引入使得本方法既适用于聚类问题又适用于主题建模问题。