摘要:本发明公开了一种基于Hadoop的邻域粗糙集快速属性约简方法,包括a)建立基于Hadoop的分布式平台、b)邻域粗糙集定义、c)生成候选集、d)计算每个属性的重要度、e)选择重要度最大的属性加入到候选集、f)判断是否满足停止条件、g)保存特征选择的状态等步骤。本发明基于Hadoop分布式平台对并行的数据挖掘算法并行化进行分析,实现了邻域粗糙集属性约简算法的并行化,并行后的属性约简大大降低了时间复杂度,执行中间过程大大减少了中间结果的输出,提高了大规模数据的分析效率,从而将纷繁多样的海量数据转换成具有信息和商业价值的可用数据,进而完成数据挖掘和分析优化。