X为了获得更好的用户体验,请使用火狐、谷歌、360浏览器极速模式或IE8及以上版本的浏览器
关于我们 | 帮助中心
欢迎来到天长市科技大市场,请 登录 | 注册
尊敬的 , 欢迎光临!  [会员中心]  [退出登录]
成果 专家 院校 需求
当前位置: 首页 >  科技成果  > 详细页

[00003287]一种基于区间的文本相似搜索方法

交易价格: 面议

所属行业: 分析仪器

类型: 发明专利

技术成熟度: 正在研发

专利所属地:中国

专利号:CN201710055119.2

交易方式: 完全转让 许可转让 技术入股

联系人: 许尔杰

进入空间

所在地: 江苏南京市

服务承诺
产权明晰
资料保密
对所交付的所有资料进行保密
如实描述

技术详细介绍

一种基于区间的文本相似搜索方法,包括以下步骤(1)输入文档集合和查询文本,建立区间模型;(2)遍历输入查询文本中的每一个词汇,利用步骤(1)的输入文档集合索引结构中的位置信息进行逐步匹配,利用滑动窗口技术进行合并,查找在文档集合中与输入文本相似的片段。(3)当无法继续匹配,判断已匹配的文档集合中的区间文本是否满足长度阈值要求,如果满足,则作为一个最终结果输出;本发明可以对文档中的不定长文本片段做自动化的相似搜索,而不需要预先对文档进行如段落切分、主题相关性分析等处理,有助于提高文本搜索、清洗、分类、挖掘等任务的工作效率,可以满足特定用户的档案清洗、论文查重、相似基因序列查找等处理需求。

推荐服务:

Copyright  ©  2019    天长市科技大市场    版权所有

地址:滁州高新区经三路

皖ICP备2023004467