[00003271]基于机器学习的自适应网络爬虫方法
交易价格:
面议
所属行业:
分析仪器
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201510892012.4
交易方式:
完全转让
许可转让
技术入股
联系人:
许尔杰
进入空间
所在地:
江苏南京市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明是一种基于机器学习的自适应网络爬虫方法,由于目前的网络爬虫程序的编写需要软件开发人员通过查询繁琐的页面代码并研究规则,没有自适应的程序自动引导爬虫进行工作。同时,在电子商务领域也并没有这种触及。因此要解决的技术问题是通过机器学习技术对大量数据进行挖掘,从而定位到某一未知网页上与该内容相关的信息。使用机器学习与数据挖掘方法来解决这一问题,主要的技术步骤为:获取数据、特征提取、异构数据归一化、训练数据构建、自适应训练、学习方法验证以及自适应模式生成,用于对所爬取网站的页面代码提取位置特征并进行自适应训练,对电子商务领域的自适应网络爬虫的研究起到了一定的作用。