X为了获得更好的用户体验,请使用火狐、谷歌、360浏览器极速模式或IE8及以上版本的浏览器
关于我们 | 帮助中心
欢迎来到天长市科技大市场,请 登录 | 注册
尊敬的 , 欢迎光临!  [会员中心]  [退出登录]
成果 专家 院校 需求
当前位置: 首页 >  科技成果  > 详细页

[00131320]基于随机森林算法的数据分析软件设计

交易价格: 面议

所属行业: 软件

类型: 非专利

交易方式: 资料待完善

联系人:

所在地:

服务承诺
产权明晰
资料保密
对所交付的所有资料进行保密
如实描述

技术详细介绍

本项目研究了基于随机森林的特征选择技术和数据挖掘技术及其在医学数据分析中的应用,主要研究成果包括: 1. 针对医学临床数据的高维特征空间、高度特征冗余等特点,提出了一种基于随机森林的封装式特征选择算法RFFS,在UCI数据集上的对比实验结果表明,RFFS算法在分类性能和特征子集选择两方面具有较好的性能。 2. 针对高通量DNA序列数据的指数级增长给数据处理、存储和传输带来的巨大挑战,研究了大型生物测序数据集压缩技术,在对现有数据压缩方法进行比较分析的基础上,提出了一种新的高通量测序数据压缩方法。在真实的DNA测序数据集上的实验结果表明,所提出的压缩方法可以获得很好的压缩比,同时提高数据的处理速度。 3. 面向疾病危险因素预测,提出一种新的基于随机森林变量重要性和SVM分类精度的的Wrapper式特征选择和数据分类方法,结合了序列前向搜索策略和序列后向搜索策略,在剔除冗余特征和不相关特征的同时,有效地选择与目标变量密切相关的关联特征,在11个UCI数据集和真实的临床数据集上的实验结果显示,该算法能够在提高运算速度的同时产生较小的具有更好分类精度的特征子集。 4. 针对生物信息学数据中存在的高度特征冗余和超高维特征空间给数据分析带来的挑战,提出一种新的基于随机森林算法的特征选择方法,采用分层特征空间的思想并结合广义序列反向搜索和广义顺序前进搜索策略。在5个基因表达数据集的实验结果表明,该方法不仅能提高分类的准确度也大大降低了特征选择过程的计算时间。 5. 设计并实现了一款实用性较强的医学数据分析软件,基于R统计平台在服务器端进行数据挖掘和分析,基于Java语言实现了Web端,采用rJava技术实现R语言与Java语言的通信。用户可以同Web端方便地提交实验数据,选择数据挖掘算法并设置相应的算法参数,查看并保存算法执行结果。

推荐服务:

Copyright  ©  2019    天长市科技大市场    版权所有

地址:滁州高新区经三路

皖ICP备2023004467