[00003287]一种基于区间的文本相似搜索方法
交易价格:
面议
所属行业:
分析仪器
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201710055119.2
交易方式:
完全转让
许可转让
技术入股
联系人:
许尔杰
进入空间
所在地:
江苏南京市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
一种基于区间的文本相似搜索方法,包括以下步骤(1)输入文档集合和查询文本,建立区间模型;(2)遍历输入查询文本中的每一个词汇,利用步骤(1)的输入文档集合索引结构中的位置信息进行逐步匹配,利用滑动窗口技术进行合并,查找在文档集合中与输入文本相似的片段。(3)当无法继续匹配,判断已匹配的文档集合中的区间文本是否满足长度阈值要求,如果满足,则作为一个最终结果输出;本发明可以对文档中的不定长文本片段做自动化的相似搜索,而不需要预先对文档进行如段落切分、主题相关性分析等处理,有助于提高文本搜索、清洗、分类、挖掘等任务的工作效率,可以满足特定用户的档案清洗、论文查重、相似基因序列查找等处理需求。