一种基于Spark的纳税人利益关联网络并行生成方法,包括以下步骤:1)、从原始数据中构造纳税人利益关联初始网络TPIN0;所述的原始数据包括企业的工商局注册信息、证监会上市公司信息、户籍部门的信息、金融机构披露的信息以及税务部门的电子发票信息;2)、使用多种聚合算子对TPIN0进行约简,得到TPIN;3)、并行输出纳税人利益关联网络TPIN0。本发明提出的并行生成方法具有高效率、可扩展的特点,为后续基于纳税人利益关联网络的税务指标挖掘和图分析的并行化奠定了基础,能用以应对海量异构的涉税数据的TPIN生成。