[00031197]一种基于结构和内容二级过滤的 Web 数据相似性检测方法

交易价格： 面议

所属行业： 其他电子信息

类型： 发明专利

技术成熟度： 正在研发

专利所属地：中国

专利号：201410843460.0

交易方式： 完全转让许可转让技术入股

联系人：王欢

进入空间

所在地：湖北武汉市

服务承诺: 产权明晰; 资料保密
对所交付的所有资料进行保密; 如实描述

登录后向技术服务商咨询

咨询平台客服试试在线客服吧发布技术需求服务免费，交易还可领红包哦交易系统

技术详细介绍

本发明公开了一种基于结构和内容二级过滤的 Web 数据相似性检测方法，在传统的通用相似性检测方法的基础上，发掘出 Web 数据结构和内容分布的特点，对检测的文档集进行两级过滤；两级过滤中的第一级过滤是结构相似性过滤，对每个Web 文档建模为Tag 树结构，从而剔除在结构上不相似的文档集，并对剩余的文档进行关键内容抽取，将其表示成元组向量的形式，将关键信息连接起来生成字符串集；两级过滤中的第二级过滤则对第一级过滤后生成的字符串集进行 Trie 树结构建模，并对相似字符串进行连接，得到最终的结果。经过多次实验证明，采用本发明提出的方法能够显著提高 web 领域数据相似性检测的效果。

[00031197]一种基于结构和内容二级过滤的 Web 数据相似性检测方法

技术详细介绍

推荐服务：