联系人:
所在地:
资源描述框架(Resource Description Framework,简称RDF)是W3C于2004年提出的一种数据表示模型。作为“处理元数据的基础”,这种模型为描述语义网中的各种资源及其相互之间的关系提供了一个框架。随着语义网的发展,大量的RDF数据在网络上发布, 在语义网领域的Linked Open Data 项目中,网络上有超过1184 个RDF图数据集,合计超过800亿条边。大规模RDF数据的管理和查询已经变成一个具有挑战性的工作。目前RDF数据管理方法主要分为三种:(1)将RDF三元组数据映射成关系数据库的表,利用现有的数据库管理和查询工具来进行RDF的查询检索;(2)基于三元组形式的查询存储,直接根据主谓宾三元组构建索引;(3)基于图模型的方式,因为RDF本身就是基于图结构,因此可以利用图的各种操作来完成对RDF数据的检索。该软件主要研究基于图模型的RDF数据管理方法,因为RDF数据模型具有天然的图结构,图模型更符合RDF模型的语义层次,能最大限度地保持RDF数据的语义信息,也有利于对语义信息的查询。在基于图模型的方式中,RDF数据模型是图,因此RDF数据的存储处理可以转化为大图的存储问题。该软件研究了能够使用SPARQL查询的RDF结构(Triples)的紧凑表示。考虑复杂的压缩数据结构,由于其体积小,允许在主存储器中有效地加载和查询Triples。我们的方法称为k3-MDD,通过使用压缩的k3-MDD对Triples组件进行建模,为RDF图的结构提供了超压缩索引,并允许在压缩环境下执行SPARQL查询。所有这些过程都在主存储器中执行,增强了查询性能过程,以防止由于其(多个)索引的大尺寸而需要访问辅助存储器的最新引擎。该软件主要特点:(1)基于k3-MDD,提出了一种存储RDF数据的算法,即将RDF三元组(S,P,O)作为三个顶点看做三维数据,对三个顶点进行编码,根据顶点的编码再对边编码,通过边的编码集合构建k3-MDD。该算法将RDF数据转化为k3-MDD存储表示,较传统的图存储表示(关联矩阵和邻接表),大大减少了所需存储的节点的数量。(2)该系统利用k3-MDD能够对RDF数据进行高效紧凑的表示这一特点,同时结合MDD的交(INTERSECTION)操作,这使得在查询时具有更低的复杂性和更好的可扩展性。(3)用户界面简洁,操作方便,减小了查询规模,同时达到了提高查询效率的目的。