联系人:
所在地:
本项目是自选项目。该项目提出了一种基于三位一体字标注的汉语词法分析方法,并基于该方法实现了一套完整的汉语词法分析系统。 汉语词法分析是中文信息处理领域中一项重要的基础性研究课题。它不仅是句法分析、语义分析、篇章理解等深层中文信息处理的基础,也是机器翻译、问答系统、信息检索和信息抽取等应用的关键环节。针对汉语词法分析中分词、词性标注、命名实体识别三项子任务分步处理时多类信息难以整合利用,且错误向上传递放大的不足,本项目提出一种基于三位一体字标注的汉语词法分析方法,该方法将汉语词法分析三个子任务全部统一到字标注的框架中,在每个字的标记中包含了词位、词性、命名实体三类词法信息,形式为”词位词性或命名实体类别”,由两部分组成,中间用下划线隔开,下划线之前是词位信息,之后是词性或命名实体类别信息,这三类词法信息在汉语词法分析系统的实现中分别用于汉语分词、词性标注和命名实体识别。其中,词位是指该字在所构成的特定词语中所占据的构词位置,本项目中规定字只有四种词位:B(词首)、M(词中)、E(词尾)和S(单字成词)。根据字序列标记中的词位信息就可以实现汉语分词。词性是该字所在的特定词语所属词语类别。如果该字所在的词语为命名实体,则标记中下划线后为相应命名实体类别。本项目研究的命名实体包括人名、地名、组织机构名三类,分别用PER、LOC、ORG标识。根据字序列标记中的词性和命名实体类别信息可以分别实现汉语词性标注和命名实体识别。三位一体字标注汉语词法分析本质就是把词法分析过程看作是一个字序列的词法信息标注过程。如果一个汉语字串中每个字的词法标记信息都确定了,那么该字串的词语切分、词性标注、命名实体识别也就完成了。 本项目实现的汉语词法分析系统主要性能指标包括: (1)将汉语词法分析三个子任务全部统一到字标注的框架中,全部采用字序列标注技术实现。 (2)软件开发环境为Microsoft Visual StudiO 6.0,编程语言采用C++。 (3)汉语分词的综合评测指标F值达到了95%以上,词性标注的标注精度达到了93%以上,命名实体识别的综合指标F值达到了89%以上。本项目的实际性能都达到或超过了以上指标。