[00003275]一种基于侧面信息的代码片段编程语言识别方法
交易价格:
面议
所属行业:
分析仪器
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201610218523.2
交易方式:
完全转让
许可转让
技术入股
联系人:
许尔杰
进入空间
所在地:
江苏南京市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明公开了一种基于侧面信息的代码片段编程语言识别方法,通过对代码片段周围附属的侧面信息,如评论、描述、标签等的分析,构造更为合理的用于代码片段编程语言识别的分类器,从而较好地解决了传统的仅基于源代码本身的识别方法的准确率低下问题。本方法分为两个主要步骤,首先利用关键词增强的多标记学习技术对代码片段周围的文本信息和已知标签进行分析,扩充足够数量的与代码片段相关的标签,之后利用已知编程语言的代码片段和标签训练出贝叶斯分类器,用于对未知编程语言的代码片段进行编程语言识别。在收集于编程社区问答网站StackOverflow的真实数据集上的实验表明,该方法较传统的识别技术具有更高识别准确率。