联系人:
所在地:
1.课题来源与背景; 实际税务系统中,存在着大量的税收数据,而针对这些税收数据的挖掘利用目的在于:在数据集中和系统整合的基础上, 建立全面的税务数据信息, 既包括税务系统内部数据, 也包括其他政府部门、企业、居民等外部数据, 并且进一步在各种数据处理模型的帮助下, 发现数据的内在规律,以帮助税务部门做出明智决策, 改进工作, 提高效率的分析活动。 在此背景下,安徽航天信息有限公司与合肥工业大学合作开展基于云平台的税务数据挖掘系统研究,通过数据挖掘技术来支持税收信息化建设,从海量的数据中发现并提炼出有价值、有意义的税收管理信息,为税收征管工作提供有效的管理措施和应对策略,为政府决策提供一个科学合理的依据。 2.技术原理及性能指标; 项目首先确定基础要素数据和业务数据划分标准,通过SOA、文件交换、数据库同步等多种方式实现跨部门的和跨机构的数据抽取。非挖掘数据结果、与特定问题挖掘的结果通过表格、图表,非结构化数据展现;对于第三方系统提供基于SOA的WEBSERVICE、API等标准接口,以实现数据的交换。 根据税务数据流的快速、海量等特点,要求所设计的数据流挖掘模型与算法需一遍扫描数据库,快速处理(如:分类或聚类)流数据,结合大规模数据集的数据约简、抽样、特征约简、降维等理论和方法,基于半随机化决策树、贝叶斯分类器、分层聚类树、序列模式、频繁项集等挖掘模型,设计具有新特性的税务数据分析模型或构建集成模型,对发票数据流中的大纲数据建模,进而从发票数据流中发现数据规律甚至异常。 性能指标包括:系统实现与税务部门数据的交换、共享和整合;通过TCP、HTTP协议的数据交换接口,整体数据整合覆盖率达到96.5%。数据整合系统能够收集数据,经过预处理形成可供挖掘的税务数据中心;为保证税务数据中心的数据质量,对于原始数据的预处理和清洗覆盖率达到98.36%。数据挖掘与成果展示相应的挖掘模块;通过数据挖掘中的分类计数,分析模块的挖掘精度达到88.7%。系统建立了企业流分析、货物流分析、进销项分析、发票来源及流向分析等挖掘任务接口,为后期研发提供支持。 3.技术的创造性与先进性 本项目拟开展针对海量发票数据的可伸缩性数据挖掘模型构建问题研究,借鉴前期已形成的针对海量数据流数据的分类、聚类模型与方法,构建基于快速流分类或聚类任务的发票数据分析模型;同时,利用已形成的针对数据流领域的模型鲁棒性和适应性等评价体系,搭建面向发票数据流的指标体系、质量管理体系和分析方法体系。项目使用Spark进行数据分析计算,使用MPP数据库Grennplum进行计算结果存储,使用Hadoop群集和Hive作为数据仓库,项目产品技术水平处于国内领先地位。 4.技术的成熟程度,适用范围和安全性; 通过大数据技术整合、清洗、汇总发票数据,深入挖掘资源潜力,通过基于发票的进项分析、销项分析、发票来源地分析、发票流向地分析、企业流分析、货物流分析、行业流分析、定额发票分析、进销项差异分析等,通过发票流向实时提供税收信息,分析税源区域,研究经济与税收增长的弹性、发展的均衡性等数量关系,揭示税收收入和税收负担等重大指标的长期增长趋势、波动规律、发展速度等,直观的反应区域、行业经济发展动态,帮助政府根据分析结果调整政策:如重点扶持某个行业、区域,经济转型等,同时为纳税人提供更精准的涉税服务。 项目技术先进成熟,适用于政府和企业用户,项目在云平台的基础上,建立税务、工商、公安、法院等相关部门的各项数据集,根据政府主管部门的要求对数据进行预处理及整合,已备数据挖掘使用。税务信息、发票信息由企业授权后收集传递给平台,安全可靠保证数据的一致性;工商信息和司法信息则在公共查询资源中进行抓取传递给平台,实现T+1隔天更新。 5.应用情况及存在的问题; 项目研发成果实现了税企双赢,有效减少税收管理成本,帮助安徽省税务系统提高了服务质量和工作效率,切实提高了纳税人满意度;为纳税人企业提供了精准的发票数据分析挖掘服务,结合企业实际经营指标状况,帮助项目产品用户降低了经营风险管理成本,促进用户企业良性发展。 项目在功能设置上,考虑到了用户的实际需求,功能点设置的较为齐全,但是人机交互和界面设计上有待加强,从而让用户更好的接受系统,让系统变的更加容易使用。 6.历年获奖情况; 2016年移动互联网络发票系统获安徽省科技进步奖,2017年网上办税平台系统入选“安徽工业精品”,2018年基于国地税一体化电子税务系统的共赢商业模式项目荣获国防科技工业管理创新成果三等奖,2018年基于云平台的智慧电子税务系统荣获中国电子信息行业优秀创新成果“盘古奖”,2018年公司“金航信晟”软件技术服务被评为“安徽名牌项目”。