联系人:
所在地:
该项目利用了数据预处理、文本自动分词、特征选择与特征加权、自动分类聚类等技术,提出了一种自动文本分类方案,并基于该方案开发了用于知识管理和文本分类的原型系统。课题提出了一种基于样本分布与熵的数值型属性离散化的数据预处理方法。还提出了一种基于基尼指数的文本特征选择方法。设计了基于香农熵与基尼指数加权的模糊kNN的文本分类器。应用结果表明,该系统可以实现大量文件的定制检索及分类,降维程度高,处理速度快。该项研究成果可以帮助企业从海量数据中快速、准确、全面地从中找到用户所需要的信息,为企业发展提供有力决策支持,具有很好的市场前景。