联系人:
所在地:
围绕藏文历史文献数字关键技术研究,取得成果概况如下:(1)在理论与技术研究方面,研究了藏文历史文献的版面分析、文本行切分、藏文粘连字丁切分、藏文字丁识别方法,在文字识别、人工智能等领域的重要会议和期刊上发表论文15篇,其中SCI2篇、EI收录5篇;编写著作2部;获得实用新型专利1件,申请发明专利2件;登记软件著作权14件。具体的关键技术如下:在藏文历史文献的版面分析方面,提出了基于块投影的版面分析方法、基于卷积降噪自编码器的版面分析方法,从图文混合的藏文历史文献中提取藏文文本区域。在藏文历史文献的文本行切分方面,针对文本行弯曲、倾斜以及文本行之间的重叠与粘连问题,分别提出了基于基线的藏文历史文献文本行切分方法、基于图模型的藏文历史文献文本行切分方法,可以有效提取藏文历史文献的文本行。在藏文历史文献的字丁切分方面,针对藏文历史文献中的藏文字丁之间的粘连问题,构建了粘连藏文字丁串数据集,提出了基于轮廓特征点检测的过切分方法,可以有效将文本行切分为字丁或候选字丁序列,在藏文历史文献的字丁识别方法,针对藏文历史文献字丁识别标注样本不足的问题,提出了基于自监督的藏文字丁识别方法,实现藏文字丁的高精度识别。(2)在资源和工具方面,构建了面向复杂版面和简单版面的藏文历史文献资源库、粘连藏文字丁串数据集、藏文字丁识别数据集,为藏文历史文献数字化相关研究提供资源支撑。为辅助藏文历史文献数字化的资源构建及技术研究,开发了藏文历史文献图像预处理工具、藏文历史文献资源检索工具、涵盖版面分析、文本行切分、粘连字丁串切分和字丁识别的人机交互校对工具。(3)在原型示范系统方面,通过藏文历史文献的版面分析、文本行切分、粘连字丁切分、字丁识别等关键技术的研究,构建了藏文历史文献识别原型系统,该系统已在西宁、西藏、黄南州、海南州、海北州等地进行具体的藏文历史文献数字化实施,取得了良好的效果。