[00003246]用于海量短文本信息发现的自动机方法
交易价格:
面议
所属行业:
分析仪器
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201410243718.3
交易方式:
完全转让
许可转让
技术入股
联系人:
许尔杰
进入空间
所在地:
江苏南京市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明提供一种用于海量短文本信息发现的自动机方法,包括如下步骤:1)自动机建立:a用Trie树结构保存所有关键词,其中树节点视为状态,树边视为状态跳转;b为每个节点的跳转信息建立哈希表;c为每个词尾状态添加词尾标记和整词信息;d为每个节点添加fail跳转;e结束;2)自动机运行:a逐字读取文本,根据当前状态的跳转信息和读入字符进行跳转操作;b每当跳转到词尾状态时,输出该状态内保存的整词信息;c结束。本发明用于海量短文本信息发现的自动机方法在保证正确性的前提下,利用自动机方法大大提高了海量文本信息发现的效率,利用哈希表的方法减少了自动机跳转时查找跳转表的耗时,全程自动化,用户体验友好。