摘要:軟件缺陷預測是典型的類(lèi)不均衡學(xué)習問(wèn)題,其中有缺陷的樣本數量遠少于無(wú)缺陷的樣本數量,但有缺陷的樣本通常是預測的重點(diǎn)。現有的軟件預測模型大多建立在基于靜態(tài)度量元的軟件缺陷數據集上,重點(diǎn)關(guān)注如何平衡類(lèi)分布,而忽略了數據集中屬性特征對軟件缺陷的判別能力。當軟件缺陷數據集中的屬性特征對類(lèi)目標概念缺乏判別能力時(shí),傳統機器學(xué)習算法難以構建有效的軟件缺陷預測模型,從而無(wú)法獲得有效的預測性能。為此,提出了一種基于不相似性的軟件缺陷預測算法,通過(guò)改善軟件缺陷數據集中屬性的判別能力,進(jìn)而提升軟件缺陷預測性能。實(shí)驗證明:基于不相似性的軟件缺陷預測算法能夠有效地改善傳統機器學(xué)習算法在軟件缺陷數據集上的預測性能。