本发明公开了一种分布式索引构建及检索方法,实现检索的快速高效性。索引构建方法包括:执行Map过程,读取HDFS上经过预处理后的文件,通过正则读取有效数据并进行封装;执行Reduce过程,读取经过Combine过程处理后的数据,初始化Lucene,将有效信息封装成索引数据结构,利用全文检索引擎工具构建索引;对分块的索引文件进行分别储存。检索方法包括:1.从互联网上获取原始数据,进行聚类与去重处理,并上传到分布式文件系统上。2.利用前述分布式索引构建方法对预处理后的数据分块并行构建索引。3.将索引文件分别储存到集群的各个节点。4.系统分发检索请求到各个节点。5.各个节点根据请求执行检索并返回检索结果。6.系统对节点返回的结果进行排序。