浏览量:0

基于概率的无监督缺陷预测方法

专利类型:发明专利 

语 言:中文 

申 请 号:CN201610395767.8 

申 请 日:20160606 

发 明 人:徐玲陆正发鄢萌杨梦宁葛永新洪明坚张小洪周末杨丹 

申 请 人:重庆大学 

申请人地址:400044 重庆市沙坪坝区正街174号 

公 开 日:20180710 

公 开 号:CN106021115B 

代 理 人:穆祥维 

代理机构:重庆信航知识产权代理有限公司 50218 

摘  要:本发明涉及基于概率的无监督缺陷预测方法,包括如下步骤,S1获取度量元阈值,使用每个度量下源代码类的度量元值的中位数作为阈值;S2度量元值与阈值的差值概率化;S3聚类,计算所有度量元下每个文件的概率之和,具有相同值的类归为一类;S4标记,如果某类文件所对应的概率合大于等于L,则将该类文件标记为有缺陷,否则标记为无缺陷,从而将所有类标记为有缺陷和没有缺陷的两类。本发明方法使用概率表示类存在缺陷的可能性,不同度量元值得到的概率不同,保留类存在缺陷可能性大小的信息。在标记的过程中,根据数据集中缺陷的分布特点,选取合适的临界值进行标记。在避免信息丢失的同时,选择合适的标记临界值,提高了缺陷预测的性能。 

主 权 项:1.基于概率的无监督缺陷预测方法,其特征在于,包括如下步骤:S1:获取度量元阈值;S1a:获取目标软件的源代码,并获取该目标软件源代码的度量元值;目标软件源代码的所有度量元的值构成一个集合X:X={x1,1,x2,2,...xi,j,...xI,J}??(1);其中,xi,j表示第j个度量元在第i个文件上的度量元值,第i个文件是指第i个源代码的文件,I表示目标软件中源代码文件的总数,J表示选取的度量元的总数;S1b:将每个度量元在所有文件上的度量元值的中位数作为该度量元阈值,见公式(2);Tj=Median(xi,j),i=1,2,3...I,j=1,2,3...J??(2);其中,Tj表示第j个度量元的阈值;S2:度量元值与阈值的差值概率化;S2a:使用公式(3)计算度量元值与其对应的阈值的差值;ui,j=xi,j?Tj,i=1,2,3...I,j=1,2,3...J??(3);其中,ui,j表示第j个度量元在第i个文件上的度量元值与第j个度量元的阈值的差值;S2b:将步骤S2a的差值使用公式(4)映射为概率;其中,P(ui,j)表示差值ui,j映射后的概率;S3:聚类;S3a:根据公式(5)对通过公式(4)得到概率求和;其中,Ki表示在每个度量元上第i个文件对应的概率P(ui,j)进行求和所得的概率和;S3b:将步骤S3a得到的I个概率和进行比较,将概率和相等的文件归为同一个类别;S4:根据公式(6)对步骤S3b聚类的结果进行标记;如果S3b聚类后,某类别文件所对应的概率和大于等于L,则将该类别中的文件标记为有缺陷,否则标记为无缺陷;其中,L表示临界值,L=J*B,B是经验值,B∈(0,1),F表示待预测的文件的类别。 

关 键 词:度量;缺陷预测;概率;无监督;源代码;缺陷可能性;差值概率;方法使用;分布特点;概率表示;数据集中;文件标记;信息丢失;类文件;中位数;聚类;保留 

法律状态:授权 

IPC专利分类号:G06F11/36(2006.01)I