摘要:為了減少虛擬環(huán)境下大數據運行時(shí)間,數據運行時(shí)能夠反映出一定的規律性和特殊的分類(lèi)性,需要對虛擬環(huán)境下大數據進(jìn)行智能并行聚類(lèi)。當前大數據聚類(lèi)方法是根據K-均值聚類(lèi)方法不斷地進(jìn)行大數據樣本分類(lèi)的調整,經(jīng)過(guò)多次計算調整后達到數據并行聚類(lèi)的效果,但每當有新的大數據流入時(shí),都需要對當前全部數據進(jìn)行K-均值聚類(lèi),計算過(guò)程復雜,聚類(lèi)效率低。為此,提出了一種基于MapReduce的虛擬環(huán)境下大數據智能并行聚類(lèi)方法。首先在虛擬環(huán)境下大數據中抽取小規模數據集并確定大數據簇的質(zhì)心,采用Single法對所抽樣的小規模數據進(jìn)行聚類(lèi),獲得虛擬環(huán)境下大數據屬性的均值,利用最小距離分類(lèi)規則將大數據屬性的均值快速地向數據簇的真實(shí)中心移動(dòng),依據Davies-bouldin指標假設一個(gè)數據簇離散度參數,在此參數值中選出大數據智能并行聚類(lèi)相似度最大值,最后利用聚類(lèi)相似度最大值得到Davies-bouldin指數,以Davies-bouldin指數為基礎將多個(gè)類(lèi)別的質(zhì)心間距以及聚類(lèi)離散度指定閾值合并為一個(gè)類(lèi)并進(jìn)行迭代計算,得到數據最佳聚類(lèi)中心位置,由此完成虛擬環(huán)境下大數據智能并行聚類(lèi)。仿真實(shí)驗結果證明,所提方法提高了大數據智能并行聚類(lèi)的靈活性和普遍適用性,減少了聚類(lèi)時(shí)間,并適合應用于教育技術(shù)領(lǐng)域,不僅可以使教育技術(shù)網(wǎng)絡(luò )數據更加合理化,而且更加規范化。