巴特娱乐城送彩金,在线棋牌97,wwwhg5157com(中国)·官方网站

本文對(duì)非平衡類數(shù)據(jù)分類問(wèn)題進(jìn)行了概述。首先在簡(jiǎn)單介紹非平衡類數(shù)據(jù)基本概念的基礎(chǔ)上，分析了非平衡類數(shù)據(jù)引起的問(wèn)題及其導(dǎo)致分類性能下降的原因；然后介紹了目前主要的解決方法，分析了現(xiàn)有處理方法的優(yōu)缺點(diǎn)；最后討論了未來(lái)的研究方向

普通分類問(wèn)題中，各個(gè)類包含的數(shù)據(jù)分布比較平衡，稀有類分類問(wèn)題中，數(shù)據(jù)的分布極不平衡。例如：將一批醫(yī)療數(shù)據(jù)分類為“癌癥患者”和“非癌癥患者”兩個(gè)類，其中 “癌癥患者”是小比例樣本（假設(shè)占總樣本的1%），稱其為目標(biāo)類，“非癌癥患者”為多數(shù)類樣本，稱為非目標(biāo)類，從大量數(shù)據(jù)中正確識(shí)別“癌癥患者”就是稀有類分類問(wèn)題。由于在數(shù)據(jù)集中所占比率太小，使得稀有類分類問(wèn)題比普通分類問(wèn)題更具挑戰(zhàn)性。

研究表明，解決稀有類分類問(wèn)題的方法總體上可以分為：基于數(shù)據(jù)集的、算法的，以及使用組合分類器方法，如Bagging、Random Forest及Rotation Forest等。

影響稀有類分類的因素有很多，本文針對(duì)其中的一個(gè)因素——樣本大小進(jìn)行研究。實(shí)驗(yàn)基于上述的若干組合分類器，在特定的類比率下通過(guò)改變樣本大小，觀察樣本大小對(duì)稀有類分類的影響。

1 影響稀有類分類的因素

通常認(rèn)為影響稀有類分類的因素是不平衡的類分布（Imbalanced class distribution），還有一些重要的因素影響稀有類分布，如小樣本規(guī)格（Small sample size）和分離性（Separability）。下面簡(jiǎn)單討論這些因素對(duì)稀有類分類的影響。

（1）不平衡的類分布：研究表明，類分布越是相對(duì)平衡的數(shù)據(jù)分類的性能越好。探討了訓(xùn)練集的類分布和判定樹(shù)分類性能的關(guān)系，但是不能確定多大的類分布比率使得分類性能下降。研究表明，在有些應(yīng)用中1:35時(shí)不能很好地建立分類器，而有的應(yīng)用中1:10時(shí)就很難建立了。

（2）樣本大小：給定特定的類分布比率（稀有類實(shí)例和普通類實(shí)例的比值），樣本大小在確定一個(gè)好的分類模型中起著非常重要的作用，要在有限的樣本中發(fā)現(xiàn)稀有類內(nèi)在的規(guī)律是不可能的。改變?cè)摂?shù)據(jù)集的樣本大小，使得稀有類實(shí)例為50個(gè)，非稀有類實(shí)例為1 000個(gè)。結(jié)果是類分布同樣為1:20，但是前者沒(méi)有后者提供的稀有類信息量大，稀有類分類的性能沒(méi)有后者高。

（3）分離性：從普通類中區(qū)分出稀有類是稀有類分類的關(guān)鍵問(wèn)題。假定每個(gè)類中存在高度可區(qū)分模式，則不需要很復(fù)雜的規(guī)則區(qū)分它們。但是如果在一些特征空間上不同類的模式有重疊就會(huì)極大降低被正確識(shí)別的稀有類實(shí)例數(shù)目。

根據(jù)以上分析可知，由于影響稀有類分類的因素多種多樣，使得稀有類分類問(wèn)題更加復(fù)雜，分類的性能降低。本文在其他因素相同的前提下研究樣本大小對(duì)稀有類分類的影響。實(shí)驗(yàn)證明在類分布相同的情況下，樣本越大稀有類分類的性能越好。

2 稀有類分類的評(píng)估標(biāo)準(zhǔn)

常用的分類算法的評(píng)估標(biāo)準(zhǔn)有：預(yù)測(cè)的準(zhǔn)確率、速度、強(qiáng)壯性、可規(guī)模性及可解釋性。通常使用分類器的總準(zhǔn)確率來(lái)評(píng)價(jià)普通類的分類效果。而對(duì)于稀有類分類問(wèn)題，由于關(guān)注的焦點(diǎn)不同，僅用準(zhǔn)確率是不合適的。

在稀有類分類問(wèn)題中應(yīng)更關(guān)注稀少目標(biāo)類的正確分類率。在評(píng)價(jià)稀有類分類時(shí)，還應(yīng)該采用其他的評(píng)價(jià)標(biāo)準(zhǔn)。

這里假設(shè)只考慮包含兩個(gè)類的二元分類問(wèn)題，設(shè)C類為目標(biāo)類，即稀有類，NC為非目標(biāo)類。根據(jù)分類器的預(yù)測(cè)類標(biāo)號(hào)和實(shí)際類標(biāo)號(hào)的分布情況存在如表1所示的混合矩陣（Confusion Matrix）。

根據(jù)表1得到如下度量：

導(dǎo)致非平衡數(shù)據(jù)分類性能下降的原因及解決方案的分析

3 組合分類器介紹

組合分類器是目前機(jī)器學(xué)習(xí)和模式識(shí)別方面研究的熱門領(lǐng)域之一，大量研究表明，在理論和實(shí)驗(yàn)中，組合方法比單個(gè)分類模型有明顯的優(yōu)勢(shì)。常用的組合分類器有：Bagging、Random Forest及Rotation Forest。

3.1 Bagging介紹

Bagging算法是一種投票方法，各個(gè)分類器的訓(xùn)練集由原始訓(xùn)練集利用可重復(fù)取樣（bootstrap sampling）技術(shù)獲得，其過(guò)程如下：對(duì)于迭代t（t=1，2，…，T），訓(xùn)練集St采用放回選樣，由原始樣本集S選取。由于使用放回選樣，S的某些樣本可能不在St中，而其他的可能出現(xiàn)多次。由每個(gè)訓(xùn)練集St學(xué)習(xí)，得到一個(gè)分類算法Ct。為對(duì)一個(gè)未知的樣本X分類，每個(gè)分類算法Ct返回它的類預(yù)測(cè)，算作一票。Bagging的分類算法C*統(tǒng)計(jì)得票，并將得票最高的類賦予X[1]。

3.2 Random Forest介紹

隨機(jī)森林是一個(gè)包含多個(gè)決策樹(shù)的分類器，并且其輸出的類別是由個(gè)別樹(shù)輸出的類別的眾數(shù)而定。 Leo Breiman和Adele Cutler發(fā)展出推論出隨機(jī)森林的算法。而 "Random Forests" 是他們的商標(biāo)。這個(gè)術(shù)語(yǔ)是1995年由貝爾實(shí)驗(yàn)室的Tin Kam Ho所提出的隨機(jī)決策森林（random decision forests）而來(lái)的。這個(gè)方法則是結(jié)合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"" 以建造決策樹(shù)的集合。重復(fù)M次這樣的抽樣過(guò)程分別得到M棵決策樹(shù)的學(xué)習(xí)樣本。單棵決策樹(shù)建造過(guò)程不進(jìn)行剪枝，森林形成之后，對(duì)于一個(gè)新的樣本，每棵樹(shù)都得出相應(yīng)的分類結(jié)論，最后由所有樹(shù)通過(guò)簡(jiǎn)單多數(shù)投票決定分類結(jié)果。

3.3 Rotation Forest介紹

Rotation Forest是一個(gè)基于判定樹(shù)的組合分類器，其基本思想如下：假設(shè)x=[x1，…，xn]為不含類標(biāo)號(hào)的數(shù)據(jù)集X的一個(gè)元組，則該數(shù)據(jù)集可以表示為N×n的矩陣；定義Y=[y1，…，yN]為X中元組對(duì)應(yīng)的類標(biāo)號(hào)集合，其中yi∈{w1，…，wc}；定義D1，…，DL為組合方法中的基分類器；F為屬性集合。Rotation Forest意在建立L個(gè)不同的準(zhǔn)確的分類器。基于新的數(shù)據(jù)集訓(xùn)練得到Di分類器。L次不同的屬性集劃分得到L個(gè)不同的提取特征集，映射原始數(shù)據(jù)得到L個(gè)不同的數(shù)據(jù)集，分別訓(xùn)練得到L個(gè)分類器。對(duì)于未知樣本的實(shí)例X，組合L個(gè)分類器計(jì)算每個(gè)類的置信度，將其歸類于置信度最高的類中。

為了驗(yàn)證稀有類分類算法受到樣本規(guī)格大小的影響，使用UCI機(jī)器學(xué)習(xí)庫(kù)[8]中的稀有類數(shù)據(jù)集sick作為實(shí)驗(yàn)數(shù)據(jù)集。實(shí)驗(yàn)采用十折交叉驗(yàn)證的方法統(tǒng)計(jì)分類的準(zhǔn)確率。

sick數(shù)據(jù)集的基本情況為：30個(gè)屬性（帶類標(biāo)號(hào)）、2個(gè)類（0，1），共有實(shí)例3 772條。其中sick和negative類分別擁有實(shí)例數(shù)目3 541和231，分別占總樣本比例93.88％和6.12％。sick類可看作稀有類。

4.1 實(shí)驗(yàn)結(jié)果

基于每個(gè)數(shù)據(jù)集，采用weka平臺(tái)提供的unsupervised resample數(shù)據(jù)預(yù)處理方法改變樣本規(guī)格的大小，使得實(shí)例數(shù)目分別是原始數(shù)據(jù)的倍到10倍不等。對(duì)這些處理后的數(shù)據(jù)集分別應(yīng)用組合分類器bagging、FandomForest和Rotation Forest算法進(jìn)行分類。

表2是應(yīng)用Rotation Forest算法在處理后得到的sick數(shù)據(jù)集上關(guān)于sick類的實(shí)驗(yàn)結(jié)果。sick數(shù)據(jù)集樣本被擴(kuò)充了若干倍不等。

導(dǎo)致非平衡數(shù)據(jù)分類性能下降的原因及解決方案的分析

表3是應(yīng)用Random Forest算法在處理后得到的sick數(shù)據(jù)集上關(guān)于sick類的實(shí)驗(yàn)結(jié)果。sick數(shù)據(jù)集樣本被擴(kuò)充了若干倍不等。

導(dǎo)致非平衡數(shù)據(jù)分類性能下降的原因及解決方案的分析

表4是應(yīng)用Bagging算法在處理后得到的sick數(shù)據(jù)集上關(guān)于sick類的實(shí)驗(yàn)結(jié)果。Bagging算法在sick數(shù)據(jù)集上實(shí)驗(yàn)時(shí)，樣本被擴(kuò)充到10倍后，recall值仍沒(méi)有達(dá)到1，后來(lái)實(shí)驗(yàn)又將樣本擴(kuò)充至12倍，但由于內(nèi)存不夠?qū)嶒?yàn)終止。

導(dǎo)致非平衡數(shù)據(jù)分類性能下降的原因及解決方案的分析

通過(guò)上述表格中的實(shí)驗(yàn)結(jié)果，可以看到隨著樣本規(guī)格變大，衡量稀有類分類的這些參數(shù)也呈遞增。這也意味著隨著稀有類實(shí)例數(shù)目的增加，算法可以獲得更多關(guān)于稀有類的信息，從而有利于對(duì)稀有類實(shí)例的識(shí)別。

4.2 結(jié)果分析

通常認(rèn)為影響稀有類分類的重要因素是數(shù)據(jù)分布的不平衡性，也就是說(shuō)對(duì)于稀有類問(wèn)題，普通的分類算法往往失效，但本文的實(shí)驗(yàn)結(jié)果表明，數(shù)據(jù)分布的不平衡性影響稀有類分類的一個(gè)因素，在特定的類比率下，使樣本規(guī)格變大，普通的分類算法往往也可以取得很好的分類結(jié)果。

本文對(duì)稀有類分類問(wèn)題進(jìn)行了研究，分析了影響稀有類分類問(wèn)題的因素，探討了稀有類分類的評(píng)估標(biāo)準(zhǔn)。針對(duì)影響稀有類分類的一個(gè)因素：樣本規(guī)格的大小進(jìn)行研究，在同等類分布比率下，改變樣本規(guī)格的大小，在weka平臺(tái)下進(jìn)行實(shí)驗(yàn)，得到數(shù)據(jù)集中稀有類的recall、precision和F-measure值。實(shí)驗(yàn)結(jié)果表明，在特定的類比率下，使樣本規(guī)格變大，普通的分類算法往往也可以取得很好的分類結(jié)果。同時(shí)也說(shuō)明，數(shù)據(jù)分布的不平衡性只是影響稀有類分類的一個(gè)因素，即使數(shù)據(jù)分布極不平衡。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
7145

瀏覽量
89583
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8441

瀏覽量
133087

評(píng)論

相關(guān)推薦

鴻蒙原生頁(yè)面高性能解決方案上線OpenHarmony社區(qū) 助力打造高性能原生應(yīng)用

隨著HarmonyOS NEXT的正式推出，鴻蒙原生應(yīng)用開(kāi)發(fā)熱度高漲，數(shù)量激增。但在三方應(yīng)用鴻蒙化進(jìn)程中，性能問(wèn)題頻出。為此，HarmonyOS NEXT推出了一整套原生頁(yè)面高性能解決方案，包括

發(fā)表于 01-02 18:00

失效分析分類有哪些？

失效的分類　　2.1 按功能分類　　由失效的定義可知,失效的判據(jù)是看規(guī)定的功能是否喪失。因此,失效的分類可以按功能進(jìn)行分類。例如,按不同材料的規(guī)定功能可以用各種材料缺陷(包括成分、

發(fā)表于 11-29 16:46

電機(jī)常見(jiàn)故障原因分析及解決方案

短路、線圈反接等故障。故障解決方案：①重新繞制定子繞組②檢查并糾正③測(cè)量電源電壓，設(shè)法消除不平衡④峭除繞組故障。常見(jiàn)類型六：電動(dòng)機(jī)空載，過(guò)負(fù)載時(shí)，電流表指針不穩(wěn)，擺動(dòng)故障原因分析：①籠

發(fā)表于 06-23 11:57

非道路移動(dòng)機(jī)械解決方案及非道路移動(dòng)機(jī)械定制

，進(jìn)行離線分析，了解整機(jī)狀態(tài)，提供合理的建議及解決方案。開(kāi)發(fā)快采用的數(shù)字化智能控制系統(tǒng)控制線路精巧，功耗低，無(wú)火花，理論上其壽命是傳統(tǒng)的非道路移動(dòng)機(jī)械控制系統(tǒng)的10倍。此外，智能設(shè)備往往成本得到了降低

發(fā)表于 06-15 10:02

ADIMEMS解決方案傳感器性能如何支持狀態(tài)監(jiān)控解決方案

半導(dǎo)體技術(shù)和能力的進(jìn)步為工業(yè)應(yīng)用（特別是狀態(tài)監(jiān)控解決方案）檢測(cè)、測(cè)量、解讀、分析數(shù)據(jù)提供了新的機(jī)會(huì)?；贛EMS 技術(shù)的新一代傳感器與診斷預(yù)測(cè)應(yīng)用的先進(jìn)算法相結(jié)合，擴(kuò)大了測(cè)量各種機(jī)器和提高能力的機(jī)會(huì)

發(fā)表于 08-12 22:33

CAN總線性能下降的原因

，不可避免的會(huì)有干擾在傳輸線上，雖然已經(jīng)用差分信號(hào)傳遞數(shù)據(jù)，但是因?yàn)樗薪K端都是接到了一個(gè)CAN總線上，不可避免又會(huì)出現(xiàn)諸如發(fā)送消息碰撞，或者因?yàn)槟硞€(gè)終端的性能下降等原因，影響整個(gè)總線

發(fā)表于 08-23 09:25

測(cè)試毫米波發(fā)生器性能的信號(hào)分析器解決方案

和帶寬能力的解決方案。該 N9042B 信號(hào)分析儀測(cè)試發(fā)射機(jī)設(shè)計(jì)的真實(shí)性能，使用 EVM 和5g NR 信號(hào)分析軟件進(jìn)行發(fā)射機(jī)下行和上行測(cè)量，只需一個(gè)按鈕，簡(jiǎn)單易行。 N9042B 信

發(fā)表于 03-15 17:45

一種用于非平衡數(shù)據(jù)的SVM學(xué)習(xí)算法

在實(shí)際應(yīng)用中的分類數(shù)據(jù)往往是非平衡數(shù)據(jù)，少數(shù)類別的數(shù)據(jù)可能有很大的分類代價(jià)。

發(fā)表于 04-14 08:35 ?23次下載

音頻平衡與非平衡的問(wèn)題

音響的連接中有平衡和非平衡之分。非平衡又叫單端輸入或單端輸出。一個(gè)信號(hào)端和一個(gè)參考端（地）。平衡

發(fā)表于 12-26 21:21 ?84次下載

淺談SMOTE算法如何利用Python解決非平衡數(shù)據(jù)問(wèn)題

本次分享的主題是關(guān)于數(shù)據(jù)挖掘中常見(jiàn)的非平衡數(shù)據(jù)的處理，內(nèi)容涉及到非平衡

發(fā)表于 05-15 14:08 ?3.8w次閱讀

新的基于代價(jià)敏感集成學(xué)習(xí)的非平衡數(shù)據(jù)集分類方法NIBoost

現(xiàn)實(shí)生活中存在大量的非平衡數(shù)據(jù),大多數(shù)傳統(tǒng)的分類算法假定類分布平衡或者樣本的錯(cuò)分代價(jià)相同，因此在對(duì)這些

發(fā)表于 03-28 13:41 ?12次下載

開(kāi)關(guān)電源中功率器件的失效原因分析及解決方案

開(kāi)關(guān)電源中功率器件的失效原因分析及解決方案(通信電源技術(shù)基礎(chǔ)知識(shí))-開(kāi)關(guān)電源中功率器件的失效原因分析及解

發(fā)表于 09-16 10:23 ?92次下載

Java內(nèi)部類持有外部類導(dǎo)致內(nèi)存泄露的原因以及其解決方案

簡(jiǎn)介為什么要持有外部類實(shí)例：持有外部類實(shí)例：不持有外部類實(shí)例：內(nèi)存泄露不會(huì)內(nèi)存泄露的方案簡(jiǎn)介「說(shuō)明」本文介紹 Java 內(nèi)部類持有外部類導(dǎo)致內(nèi)存泄露的原因以及其解決方案

發(fā)表于 10-08 16:32 ?1016次閱讀

電機(jī)失速的原因及解決方案

電機(jī)失速的原因及解決方案? 電機(jī)失速是指電機(jī)在正常工作過(guò)程中速度突然降低甚至停轉(zhuǎn)的現(xiàn)象。電機(jī)失速可能會(huì)導(dǎo)致設(shè)備停止運(yùn)行或者出現(xiàn)故障，因此需要及時(shí)解決并采取措施預(yù)防。本文將分析電機(jī)失速的

發(fā)表于 12-25 11:32 ?3819次閱讀

SMT貼片加工中立碑現(xiàn)象的原因及解決方案

此問(wèn)題，深圳佳金源錫膏廠家為您深入剖析原因，并提供相應(yīng)的解決方案：一、立碑現(xiàn)象的原因探究1、元器件兩端受力不均，錫量分配不一致，導(dǎo)致濕潤(rùn)力差異。2、預(yù)熱溫度設(shè)置不合

發(fā)表于 10-17 16:43 ?448次閱讀