联系人: 华南理工大学
所在地: 广东广州市
摘要:本发明公开了一种基于名义属性的连续型特征构造方法,包括步骤1)数据预处理;2)根据业务背景知识设置特征构造框架;3)产生具体的特征构造路径;4)根据特征构造路径构造相应的特征并产生训练集;5)对训练集进行特征选择并构建预测模型;6)将相关的数据集以及预测模型保存并结束离线训练过程;7)将需要进行线上预测的样本数据进行预处理以及特征提取;8)利用离线训练得到的预测模型对样本进行预测。本发明不仅可以应用于具有“用户‑物品”对的场景,同时也适用于更为一般的带有名义属性或分类变量特征的分类和回归预测问题,与传统的One‑Hot和Dummy编码相比,本发明所产生的特征使得样本之间差异更加明显,产生的特征具有较强的可解释性。