联系人:
所在地:
该课题首先研究了基于 CNN 网络特征提取的图片标签精化技术,在此基础上利用视觉词袋技术、自然语言处理技术、文本主题分类方法对现有正版图片库内容建立一一对应的主题描述,以利用主题描述爬取网络上的相似图片;其次建立了一种结合深度学习与哈希编码策略的新编码方法对图片的特征向量进行基因编码;然后建立了一种混合比对法以识别侵权资源;最后以上述研究内容为核心,搭建了互联网图片产品结构化与目标追踪管控平台。主要研究成果如下:
1。图片自动化结构解析及关键词标签精化技术研究:基于 CNN 网络提取图片的底层特征和高级语义特征,实现图片资源的自动化结构解析。建立了哺乳动物与鸟类的图片训练库, 在该库上对高清图片识别正确率达到国内先进水平;建立了标签权重赋值模型,并将权重值作为图片标签的维度扩展。
2。图片网络资源多策略自适应爬取技术研究:根据图片多维权重标签,构建了与其相适 应的新型搜索策略。针对不同网站,建立了不同爬取策略的爬虫组件,建立了爬虫组件的调 度策略,建立了爬取链接的排重机制,建立了智能爬取策略,实现了对主流网站资源的爬取。
3。侵权图片检测与追踪技术研究:利用深度学习对图片的特征向量进行并行式多维度提取,将深层卷积神经网络与哈希编码策略结合,构建了新的基因编码策略,对图片多维度特征向量进行基因编码。采用基于哈希编码定位技术的分桶对比方法,将疑似侵权图片与正版图片的基因码进行对比,计算其相似度,以判定其是否侵权及实现篡改部位的提取。
4。图片侵权传播及受众分类模型:利用机器学习对侵权图片侵权使用的内容类型、用户类型、传播途径进行数据分析,挖掘其扩散特点及受众特点。
5。搭建互联网图片结构化与目标追踪智能管控平台:互联网图片结构化与目标追踪智能管控平台采用 Spring MVC Mybatis 架构,将业务逻辑、数据、界面显示分离,使平台利于维护和管理,并运用了 MySQL 关系型数据库进行数据的存储和调用。平台通过浏览器为监控申请用户和平台运营用户提供服务,系统包含多项业务应用以及为上层应用提供支撑服务的目标识别、特征提取、侵权检测、在线取证等技术组件。
该课题建立数字图片资源数据库,数量约 106 万条;建立数字图片资源基因库,数量约
104 万条;建立特定网络目标检索比对软件系统 1 套,单张比对响应时间≤0。2s;建立互联
网数字图片资源结构化与目标追踪智能管控平台 1 套,实现内容自动化结构解析、侵权作品
识别及追踪、在线取证等功能;完成数字图片资源侵权传播及受众分类数据分析报告 1 份。