联系人: 苏州大学
所在地: 江苏苏州市
摘要:本发明提供一种中文事件抽取方法和系统,该方法包括:将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析;根据词的内部结构,将符合抽取条件的词标记为候选触发词;根据概率、词性和词内部结构将符合过滤条件的触发词过滤掉;利用最大熵识别模型抽取触发词,并获取每个触发词的可信度;依据每个触发词的可信度,将触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从一致性处理测试集合中抽取触发词;利用最大熵分类模型对触发词进行分类,得到事件集合。本发明提供的方法和系统从中文本身的特点出发,通过综合考虑和分析中文词的内部结构和中文词在篇章中语义的一致性,提高了中文事件抽取的性能。