联系人:
所在地:
数据已成为各行各业的核心资产。当前数据分析遇到成本高、扩展性差、实时处理困难、算法不够灵活以及安全性等难题,本项目打破了国外厂商的技术垄断,自主研发了分布式数据库和分布式文件系统,实现了一种全新的基于数据流的高效并行数据计算框架,构建了灵活、可扩展的分布式挖掘算法组件,开发了具有核心自主知识产权的基于分布式数据管理系统的智能挖掘平台,并在智慧城市、电信等行业进行了产业化应用。 项目主要创新成果包括: (1) 率先实现了高可用、高可靠、高扩展和低成本的分布式数据管理系统。针对结构化数据,自研的分布式数据库产品提供了完整的分布式事务解决方案,保证了系统的处理效率、跨节点数据的一致性、失败事务处理、混合事务读写、分布式事务控制、事务的持久化等关键创新功能点,业务性能可以达到Oracle的3倍;针对非结构化数据,自研了一套全新的、基于通用x86存储服务的分布式文件系统,可以根据对不同类型数据的访问需求与特点,制定动态的存储策略,相比通用大数据文件系统性能提升了30%。 (2) 在电信行业率先使用基于机器学习和数据分析的在线智能运维一体化算法。充分利用EPG、CDN等故障日志和网口抓包数据,通过正负关联规则挖掘、序列模式发现等方法,对系统进行实时监控,实现端到端的全网诊断以及对用户无干扰式的视频业务质量监测,快速定位问题故障,主动预测系统运营的潜在风险,自动进行故障自愈、根因分析,比传统的方法效率提升了80%。 (3) 创新地提出了一种分布式数据挖掘联合学习机制、频繁项目集挖掘及其更新方法,为关联规则挖掘提供了高效、并行的理论依据。针对挖掘中支持数计算的复杂性等问题,开辟出了一种全新基于数据流的高性能并行大数据计算框架,性能提升4倍以上,支持10TB级别的数据运算且响应时间在1秒内。 (4) 提出了一种基于隐含语义分析的混合型协同过滤推荐算法,融合了用户显性与隐性反馈信息,创新性地应用大数据、人工智能等技术来发现用户使用过程中潜在的语义结构,分析用户的兴趣度,提供精准营销和广告、个性化UI界面等业务,提升了用户体验。 (5)提出了不可否认的方法,率先在分布式数据库中对关键操作实现不可否认,在数据库的安全审计机制方面领先于国内外同类产品。 本项目开发的自主知识产权分布式数据库与文件系统、基于数据流的高效计算框架,并基于该框架的智能挖掘平台,打破国外厂商在该领域的技术垄断,获得授权发明专利47项,其他知识产权33项。 本项目广泛应用于智慧城市、电信、金融、教育、交通、政务、公共安全等行业的100 多个大客户,近两年累计新增销售额35.29亿元,利润3.43亿元。积极参与国际ITU-T、ISO/IEC和国内CCSA、DCA等国内外标准/论坛,完成39项提案,立项或牵头大数据术语、需求、架构、交换和溯源等标准,确立了我国在数据领域的话语权。