摘要:隨著(zhù)互聯(lián)網(wǎng)數據的快速增長(cháng),原始的Kmeans算法已經(jīng)不足以應對大規模數據的聚類(lèi)需求。為此,提出一種改進(jìn)的Canopy-Kmeans聚類(lèi)算法。首先面對Canopy算法中心點(diǎn)隨機選取的不足,引入“最大最小原則”優(yōu)化Canopy中心點(diǎn)的選取;接著(zhù)借助三角不等式定理對Kmeans算法進(jìn)行優(yōu)化,減少冗余的距離計算,加快算法的收斂速度;最后結合MapReduce框架并行化實(shí)現改進(jìn)的Canopy-Kmeans算法。基于構建的微博數據集,對優(yōu)化后的Canopy-Kmeans算法進(jìn)行測試。試驗結果表明:對不同數據規模的微博數據集,優(yōu)化后算法的準確率較Kmeans算法提高了約15%,較原始的Canopy-Kmeans算法提高了約7%,算法的執行效率和擴展性也有較大提升。