[00006083]一种基于Spark计算模型的K‑Means算法优化方法

交易价格： 面议

所属行业： 分析仪器

类型： 发明专利

技术成熟度： 正在研发

专利所属地：中国

专利号：CN201710575225.3

交易方式： 完全转让许可转让技术入股

联系人：邱老师

进入空间

所在地：江苏南京市

服务承诺: 产权明晰; 资料保密
对所交付的所有资料进行保密; 如实描述

登录后向技术服务商咨询

咨询平台客服试试在线客服吧发布技术需求服务免费，交易还可领红包哦交易系统

技术详细介绍

本发明公开了一种基于Spark计算模型的K‑Means算法优化方法，主要解决现有K‑means算法对初始中心选取依赖性强、分类数K未必总是已知及算法频繁迭代资源开销大等问题。该方法实现步骤是对数据源进行数据预处理；采用Canopy算法选取合适K值；采用基于欧氏距离的最大最小距离算法选取初始中心；对数据集进行Map操作，得到样本到中心点的距离和相似度最高的中心点；对同一中心点下的RDD对象进行Reduce操作，反复迭代最终得到聚类结果。本发明相较其他K‑Means改进的算法，能够充分利用Canopy的粗聚类结果和最大最小距离算法的合理初始点，通过Spark计算模型实现了海量数据中的并行运算，能够大大减少处理海量数据的时间，具有良好的收敛速度、准确性以及较强的实用价值。

[00006083]一种基于Spark计算模型的K‑Means算法优化方法

技术详细介绍

推荐服务：