联系人:
所在地:
本发明公开了面向智慧校园的网页表数据与关系型数据库数据集成方法。本发明通过多分类器计算所有数据表对应属性列的相似度,获得属性关联关系后进行初步数据集成,有效降低属性之间的不确定性。通过爬虫获取校园网页中离散的网页表数据,使用混合标签匹配器得到多个网页表的标签映射关系,再将这些网页表缝合为一张较大网页表。将这缝合后的网页表转换为结构化数据表,与初步集成后的数据特征表进行数据集成,提高了集成数据完整性。本发明在传统的数据集成中增加了对校园网页中网页表数据的集成方法,使得最后得到的用户特征表更加完善,将网络上的数据与本地数据结合起来,进一步提升数据集成的准确率,发现有价值的潜在信息。