联系人:
所在地:
1.课题来源与背景 “科学合作网络的不连通问题研究”系2015年度甘肃省自然科学基金计划项目,项目编号:1506RJZA141。 目前,使用搜索引擎查询自己所需要的信息已经成为现代人工作和生活必不可少的一部分,而从海量数据中高效快速地返回用户感兴趣的内容成为信息检索的重要挑战,同时用户对搜索引擎的查准率和查全率也提出了更高的要求。搜索人物姓名相关信息是用户搜索的重要方式之一,也是用户在互联网搜索的主要目的之一,据统计在搜索引擎查询中对人名的搜索和查询请求约占5%-10%,是信息查找的关键点。然而,据美国人口调查报告显示,有10亿人却仅仅用了90000个不同的名字。在我国,重名现象也非常严重,全国公民身份信息系统中姓名为“张伟”的就有299025人。重名现象的普遍性导致了互联网文本中姓名歧义现象严重,搜索结果并未对有歧义的人名进行有效的信息组织,用户需要花费大量时间从重名人物中筛选出自己感兴趣的人物信息。如何挖掘到包含有相同姓名文本之间的联系,有效地解决姓名歧义问题,并提供可视化展示,是大数据时代人工智能领域里自然语言处理所面临的重要挑战。为此,姓名消歧成为了近年来国内外学者的研究热点之一。当前科研文献数据量急速增长,如何有效地消除文献著者中文姓名歧义尤为重要。 2.研究目的与意义 姓名消歧是合著者社会网络、数据挖掘、自然语言处理、人工智能、人名知识库构建等领域的基础环节。在自然语言处理领域中,姓名消歧也是一个必要的前提和必不可少的环节。因此本研究具有一定的理论意义和实践意义: ⑴ 姓名消歧效果的提升将极大地降低重名带来的干扰,从而可以更加准确地确定不同人物个体的相关信息,是文献数据库中人名检索准确率的关键,帮助科研工作者提高获取科技情报的效率,并促进科技文献的深度挖掘,从而更好地对科研人员进行学术影响力评价,以及进行论文、项目评审专家推荐,也是合著者社会网络分析、展示合著者图谱需首要解决的问题。 ⑵ 项目提出的采用语义指纹特征来解决文献著者姓名歧义,对处理网页中的姓名歧义问题以及词义消歧具有一定的借鉴意义。 ⑶ 可用于优化搜索结果,提高查询效率,改善用户体验;将促进构建学者圈、数据挖掘以及知识服务等应用实现更优的效果。随着社交媒体和社交网络的蓬勃发展,人物之间的关系研究凸显出了巨大的商业价值和影响。 ⑷ 随着图书馆学和情报学的发展,该学科的研究从以文献为中心正在逐渐趋向以人为中心,因此,文献著者姓名消歧的研究尤为重要,也是促进情报学发展取得巨大飞跃的关键,对未来出版业的发展、搜索引擎的设计以及文献数据的索引产生一定的影响。 3.主要论点与论据 ⑴ 构建中英双语言体系下跨数据库的姓名消歧模型; ⑵ 对不同数据库在不同学科的科学合作网络的连通性进行对比研究; ⑶ 对利用单数据库关系扩展和多数据库协同关系扩展来实现不连通的子网络连通的方法进行研究和对比; ⑷ 采用构建的实验测试数据集,对现有的链接推断算法进行对比; ⑸ 利用关系扩展方法进行连通处理前、后的科学合作网络,在一些应用领域上进行对比。 4.创见与创新 ⑴ 设计了文本指纹特征消歧方案,提高了消歧准确率 提出了基于语义指纹的综合特征文献著者姓名消歧方案,即首先利用消歧准确率较高的合著者特征、机构特征进行第一步消歧,再结合文献全文的文本指纹特征进行第二步消歧。 ⑵ 设计了综合特征比较器,提高了消歧准确率 有效地融合作者的合著者特征、机构特征和全文的语义指纹特征设计了综合特征比较器,进而进行同一作者的文献识别。 ⑶ 设计了争议仲裁器,提高了消歧准确率 根据综合特征的比较结果设置合理的阈值进行认领决策、作品指派,考虑到一篇论文可能被多名作者认领,并添加了争议仲裁。 5.社会经济效益及存在的问题 项目通过选取部分文献数据构建文献测试数据样本集,开展独立特征姓名消歧效果测试和基于语义指纹的综合特征姓名消歧实验,将单特征测试中准确率较高而查全率较低的合著者特征、作者单位特征和查全率较高的文本指纹特征相结合,弥补了各自的不足,得到了较好的查重结果。项目组将在后续研究中,积极吸收用户和专家的反馈意见,不断优化消歧模型,加大成果推广应用,使其在科学合作网络的相关研究中发挥更大的支撑作用。