摘要:針對大數據環(huán)境中存在很多的冗余和噪聲數據,造成存儲耗費和學(xué)習精度差等問(wèn)題,為有效的選取代表性樣本,同時(shí)提高學(xué)習精度和降低訓練時(shí)間,提出了一種基于選擇性抽樣的SVM增量學(xué)習算法,算法采用馬氏抽樣作為抽樣方式,抽樣過(guò)程中利用決策模型來(lái)計算樣本間的轉移概率,然后通過(guò)轉移概率來(lái)決定是否接受樣本作為訓練數據,以達到選取代表性樣本的目的。并與其他SVM增量學(xué)習算法做出比較,實(shí)驗選取9個(gè)基準數據集,采用十倍交叉驗證方式選取正則化參數,數值實(shí)驗結果表明,該算法能在提高學(xué)習精度的同時(shí),大幅度的減少抽樣與訓練總時(shí)間和支持向量總個(gè)數。