联系人:
所在地:
该项目为国家自然科学基金资助面上项目(项目批准号:61502047)。该项目主要研究内容如下:
1. 满足差分隐私的频繁项集挖掘研究:通过限制事务长度减少挖掘过程中的噪音摄入量是提高满足差分隐私的频繁项集挖掘结果效用的有效手段。为限制事务长度,申请人提出了智能带权事务分裂法,解决了目前被广泛采用的事务截断法所带来的频繁信息大量丢失的问题。此外,该项目揭示了项集在转换后的数据集和原始数据集上支持度之间的数学关系,并利用该关系弥补由事务分裂所带来的信息损失。利用上述方法,首次提出了基于深度优先搜索的满足差分隐私的频繁项集挖掘方法。
2. 满足差分隐私的频繁序列挖掘研究:与频繁连续序列挖掘相比,频繁非连续序列挖掘更具有通用性,而现有方法无法解决频繁非连续序列挖掘的差分隐私保护问题。为解决这一难题,该项目提出了基于抽样数据集的频繁候选序列集剪枝方法。此外,通过理论分析,找到抽样数据集中阈值下降的幅度与频繁序列被错估为非频繁序列之间的数学关系,根据这一关系松弛用户给定的阈值,进一步提高了挖掘结果的效用。利用上述方法,首次解决了频繁非连续序列挖掘的差分隐私保护问题。
3. 满足差分隐私的频繁子图挖掘研究:现有的频繁子图挖掘方法只能够满足低强度的差分隐私保护范式(即(ε,δ)-DifferentialPrivacy),无法满足标准的差分隐私保护范式(即 ε-DifferentialPrivacy)。为解决这一问题,该项目设计了频繁子图识别方法和基于网格的噪音支持率计算方法,前者利用子图的噪音支持率裁剪明显不频繁的候选子图,从而提高挖掘结果的效用,后者利用频繁子图间的包含关系建立网格,通过网格对频繁子图分组,按组计算频繁子图的噪音支持率。利用上述方法,首次提出了两阶段的满足 ε-差分隐私的频繁子图挖掘方法。