本发明属于聚类算法技术领域,尤其涉及一种互联网数据聚类方法及系统。
所述互联网数据聚类方法包括以下步骤步骤a在原有的FG-k-means算法的目标函数距离计算项中添加惩罚系数,形成新的目标函数;步骤b对新的目标函数的参数进行优化求解;步骤c根据优化的参数结果计算样本与聚类中心的距离,根据样本与聚类中心的距离对样本进行聚类簇分配。本发明实施例的互联网数据聚类方法及系统在原有FG-k-means算法的目标函数距离计算项中加入惩罚系数,可以有效地控制原有FG-k-means算法存在的聚类簇样本数量无限增长的问题,互联网数据聚类方法同时能够使得各个聚类簇之间样本数量均衡可控,从而获得更高的聚类精度。