基于Spark框架與聚類優(yōu)化的高效KNN分類算法
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
針對(duì)K-最近鄰(KNN)分類算法時(shí)間復(fù)雜度與訓(xùn)練樣本數(shù)量成正比而導(dǎo)致的計(jì)算量大的問(wèn)題以及當(dāng)前大數(shù)據(jù)背景下面臨的傳統(tǒng)架構(gòu)處理速度慢的問(wèn)題,提出了一種基于Spark框架與聚類優(yōu)化的高效KNN分類算法。該算法首先利用引入收縮因子的優(yōu)化K-medoids聚類算法對(duì)訓(xùn)練集進(jìn)行兩次裁剪;然后在分類過(guò)程中迭代K值獲得分類結(jié)果,并在計(jì)算過(guò)程中結(jié)合Spark計(jì)算框架對(duì)數(shù)據(jù)進(jìn)行分區(qū)迭代實(shí)現(xiàn)并行化。實(shí)驗(yàn)結(jié)果表明,在不同數(shù)據(jù)集中傳統(tǒng)K最近鄰算法、基于K-medoids的K-最近鄰算法所耗費(fèi)時(shí)間是所提Spark框架下的K-最近鄰算法的3.92 - 31. 90倍,所提算法具有較高的計(jì)算效率,相較于Hadoop平臺(tái)有較好的加速比,可有效地對(duì)大數(shù)據(jù)進(jìn)行分類處理。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
基于Spark框架與聚類優(yōu)化的高效KNN分類算法下載
相關(guān)電子資料下載
- 天數(shù)智芯主導(dǎo)的DeepSpark開源社區(qū)發(fā)布百大應(yīng)用開放平臺(tái)24.06版本 436
- spark運(yùn)行的基本流程 91
- Spark基于DPU的Native引擎算子卸載方案 180
- 百度前高管景鯤與朱凱華創(chuàng)立AI搜索公司,Genspark產(chǎn)品驚艷上線 458
- 關(guān)于Spark的從0實(shí)現(xiàn)30s內(nèi)實(shí)時(shí)監(jiān)控指標(biāo)計(jì)算 111
- “Spark+Hive”在DPU環(huán)境下的性能測(cè)評(píng) | OLAP數(shù)據(jù)庫(kù)引擎選型白皮書(24版)DPU部分 212
- 芯科科技和Arduino合作創(chuàng)建SparkFun Thing Plus Matter板 234
- 應(yīng)用于MEMS執(zhí)行器的8英寸硅晶圓上的KNN無(wú)鉛技術(shù)介紹 345
- Sparkle撼與科技發(fā)布TBX-750FA-V2顯卡塢,支持3.5槽厚顯 243
- 如何注冊(cè)星閃Sparklink設(shè)備媒體接入層標(biāo)識(shí)、地址碼? 246