专利类型:发明专利
语 言:中文
申 请 号:CN201410234198.X
申 请 日:20140529
申 请 人:重庆大学
申请人地址:400044 重庆市沙坪坝区沙正街174号
公 开 日:20140806
公 开 号:CN103970666A
代 理 人:王海凤;穆祥维
代理机构:重庆博凯知识产权代理有限公司 50212
摘 要:本发明涉及一种软件重复缺陷报告检测的方法,它包括如下步骤,首先从软件的缺陷报告数据库中提取训练样本集和测试样本集,建立训练样本集的主题模型,然后对测试样本应用主题模型得到文档-主题矩阵,计算测试样本间的主题相似度,提取测试样本的分类信息计算分类信息相似度,将分类信息相似度和主题相似度相乘得到测试样本间的LDA相似度;其次提取测试样本N-gram序列计算N-gram相似度,将N-gram相似度和LDA相似度加权求和得测试样本间的整体相似度,最后如果整体相似度大于等于预设的阀值则认为两个测试样本为重复缺陷报告。本方法极大地提高了检测结果的准确性,尽量避免将重复缺陷报告派给开发人员,节省了人力资源。
主 权 项:一种软件重复缺陷报告检测的方法,其特征在于具体包括如下步骤:步骤一:从软件的缺陷报告数据库中提取训练样本集M和测试样本集W,训练样本集M={m1,m2,...mi...,mQ},i=1,2,...,Q,mi表示训练样本集中第i个训练样本,Q表示测试样本集中训练样本的数量;测试样本集W={w1,w2,...wj...,wP},j=1,2,...,P,wj表示测试样本集中第j个测试样本,P表示测试样本集中测试样本的数量,Q>P;步骤二:利用Mallet工具创建训练样本集M的主题模型;(一)将训练样本集M转化为特征向量集i=1,2,...,Q,其中表示训练样本mi对应的训练样本特征向量;(二)预设Mallet工具对应的参数K
关 键 词:
法律状态:公开
IPC专利分类号:G06F11/36(2006.01)I