联系人: 湘潭大学
所在地: 湖南湘潭市
摘要:本发明公开了一种基于文本图片检索的相似文本检测方法,包括以下步骤建立文档库;建立文本图片库;文本图片库中图片的特征提取和降维;将检索文档分割为检索图片集;检索图片集中图片的特征提取和降维;检索图片集的余弦相似性度量;检索结果的全文相似度过滤;检索结果输出。本发明集成多种多层卷积神经网络模型训练CNN特征描述算子,获得文本图像的深层视觉表示,且通过PCA压缩降维提高相似性度量的效率,并从检索结果的过滤方面通过建立全文相似度过滤模型进行改进,对检索结果相似度进行更新,提高检索精度,直接推荐和检索任意多字符文本,具有良好的相似文本检测的能力,可用于文本重复性检查或相似文献推荐。