基于差異度的不均衡電信客戶數據分類方法
大小:0.94 MB 人氣: 2017-12-04 需要積分:1
標簽:數據分類(1522)
針對傳統分類技術對不均衡電信客戶數據集中流失客戶識別能力不足的問題,提出一種基于差異度的改進型不均衡數據分類(IDBC)算法。該算法在基于差異度分類(DBC)算法的基礎上改進了原型選擇策略。在原型選擇階段,利用改進型的樣本子集優化方法從整體數據集中選擇最具參考價值的原型集,從而避免了隨機選擇所帶來的不確定性;在分類階段,分別利用訓練集和原型集、測試集和原型集樣本之間的差異性構建相應的特征空間,進而采用傳統的分類預測算法對映射到相應特征空間內的差異度數據集進行學習。最后選用了UCI數據庫中的電信客戶數據集和另外6個普通的不均衡數據集對該算法進行驗證,相對于傳統基于特征的不均衡數據分類算法,DBC算法對稀有類的識別率平均提高了8. 3%,IDBC算法對稀有類的識別率平均提高了11. 3%。實驗結果表明,所提IDBC算法不受類別分布的影響,而且對不均衡數據集中稀有類的識別能力優于已有的先進分類技術。
?
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%