联系人:
所在地:
该项目为全国统计科学研究项目(项目编号:2014LZ03)。该项目主要研究内容如下:
1. 对 UCI 数据做分类:在机器学习中的分类算法中,KNN(K 最近邻)算法是其简单性和效率特征的最常用的方法之一。尽管 KNN 算法在许多情况下有很大的效果,但仍然存在两个缺点,这种分类算法的效率不仅受到冗余维度特征的明显的影响,而且分类精度也受到训 练样本分布的严重影响。该项目提出了一种基于内核方法和属性约简的逐步 KNN 算法,可以有效解决上述问题。计算了所提算法的准确率,并将其与基本的 KNN 算法进行比较,并利用四个 UCI 数据集进行实验。实验结果表明:逐步 KNN 算法(由 SWKNN 表示)表现优于原始KNN 算法,平均精度提高 13.8%。
2. 选择不同的协变量评估吸烟对心肌梗死的总体因果效应:图形模型和相应的线性结构方程模型可以用作描述因果关系的数学语言。一个常见的问题是,应该使用图中的协变量来估计因果效应。该项目用不同的协变量选择评估了估计因果效应的渐近方差。用非实验数据评估吸烟对心肌梗死的总体因果效应。比较结果表明:控制基因和酗酒的渐近方差小于控制基因和生活习惯的渐近方差。
3. 结合网络搜索数据预测 CPI 指数:如今,网络逐渐取代传统媒体,成为用户获取互联网信息的重要途径。用户使用互联网(如百度索引)搜索相关信息,而互联网也记录其查询记录。消费者价格指数(CPI)是经济指标的重要指标,与网络上的数据有关系。首先,该 项目发现网络搜索数据与 CPI 数据之间的联系。其次,采用逐步改进的算法和 PCA(主成分分析)进行搜索索引综合,然后选择五个主成分来预测 CPI,建立主成分与 CPI 之间的协整关系。最后,基于主成分和历史数据创建了三个预测模型。结果表明:主成分和历史数据的混合模型的 MAPE(平均绝对百分比误差)和 RMSE(均方根误差)与其他模型相比最低。此外,还建立 ECM(误差校正模型)进一步预测。总而言之,综合搜索索引的新方法可以用于网络经济指标等情境。
该项目取得成果的社会影响和效益:对分类算法的改进,可以有效节约人们时间,同时高分类率可以快速从大量数据中归纳总结出有效信息,更好的帮助人们管理自己的生活或工作。
该项目通过比较得出对于心肌梗死,人的基因和酗酒的影响是较为稳定的。基因是无法控制的,但可以通过不酗酒来降低心肌梗死的发生。当然,也要注意不熬夜,规律作息时间,减少吸烟或者不吸烟。健康是最大的财富,希望每个人都能注意到健康的可贵,珍爱自己。通常,CPI 指数会延迟发布,该项目利用网络数据提前准确预测 CPI 指数,可以有效引
导有关部门制定下一季度的经济政策。