联系人:
所在地:
该项目为北京市自然科学基金资助青年项目(资助编号:4174098)。该项目主要研究内容如下:
1. 高性能中文分词模型的研究:针对中文分词任务本身的特点,对目前现有深度模型进行改进,使其在中文分词任务上发挥更大的作用。该项目分别完成了基于隐多粒度的中文分词模型和基于胶囊模型的分词模型。在基于隐多粒度的中文分词模型中,卷积神经网络被引入中文分词任务中,利用其捕捉多粒度的局部信息,从而更好地获取序列的信息。在基于胶囊模型的中文分词模型中,胶囊模型首次被应用至中文序列标注任务,提出的胶囊滑动窗口有效地将胶囊模型应用至序列标注任务,从而拓展了在序列标注领域可利用的深度模型的种类。
2. 自适应中文分词模型的研究:根据实际应用的不同需求,该项目分别从半监督领域迁移和全监督领域迁移进行了自适应中文分词模型的研究:
(1) 在半监督领域迁移的中文分词模型中:可用数据包括始源域存在的大量标注数据和目标领域的大量无标注数据。因此,模型构建的主要问题就在于如何从目标领域的未标注数据中把目标领域的信息提取出来,传递给分词模型。对此,该项目分析了源领域和目标领域文本之间的差别,并且发现中文汉字的数量本身比较有限,不同领域之间的汉字差别不大, 而主要的差别在于字符 bi-gram,也就是说汉字之间的组合关系。这就启发该项目通过建模汉字之间的组合关系来提取目标领域的信息。该项目使用一个字符级的语言模型,语言模型通过上文预测下一个字符,自然地建模了汉字之间的组合关系。对于如何传递这一信息,经过尝试发现,字符的分布式表达在训练的过程中自然地保存了字符的聚类关系,因此利用字符的分布式表达在模型之间传递信息;
(2) 在全监督领域迁移的中文分词模型中:可用的数据包括始源域存在的大量标注数据和目标领域少量标注数据。模型构建的主要问题就在于如何对模型在少量目标领域数据的训练进行约束,使得模型在充分挖掘、学习目标领域的特定信息的同时,不丢失源领域与目
标领域共有的一些信息。该项目受到基于知识蒸馏的模型压缩算法的启发,使用一个源领域的模型作为"教师模型",对目标领域的"学生模型"的训练过程进行约束,这一动态的正则方法会根据训练样子自动的规范学生模型的训练损失函数,使得学生模型能够在训练的过程中,在学习到目标领域特点的前提下,还能够保留源领域的信息,最终取得比较好的效果, 性能上比传统的特征的方法和直接混合训练更有效。
3. 中医古籍分词系统的研究:中医古籍记录了大量来自中医工作者的宝贵经验。但由于受缺乏标注语料的限制,针对中国古代医学文献自动文本分析的研究才刚刚开始。该项目首先进行了针对中医古籍分词语料标注标准进行了研究。提出了中医古籍分词规范建议:以既有事实、语义变化为总原则,从词性语法、语义类型两个维度进一步拟定细则。通过分析中医古籍中出现的术语常见类型与结构,并将其引入分词原则,从而构建具有中医古籍语言特色的分词标准,为进一步构建中医古籍分词算法模型、实现计算机精准抽取信息提供了一定基础支撑。基于完成的中医古籍标注语料和基于胶囊模型的分词系统,该项目开发了中医古籍分词系统。该系统具有良好的古籍分词性能。