衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習處理數據為什么把連續性特征離散化

Dbwd_Imgtec ? 來源:未知 ? 作者:易水寒 ? 2018-11-17 09:31 ? 次閱讀

在學習機器學習中,看過挺多案例,看到很多人在處理數據的時候,經常把連續性特征離散化。為此挺好奇,為什么要這么做,什么情況下才要做呢。

一、離散化原因

數據離散化是指將連續的數據進行分段,使其變為一段段離散化的區間。分段的原則有基于等距離、等頻率或優化的方法。數據離散化的原因主要有以下幾點:

1、算法需要

比如決策樹、樸素貝葉斯等算法,都是基于離散型的數據展開的。如果要使用該類算法,必須將離散型的數據進行。有效的離散化能減小算法的時間和空間開銷,提高系統對樣本的分類聚類能力和抗噪聲能力。

2、離散化的特征相對于連續型特征更易理解,更接近知識層面的表達

比如工資收入,月薪2000和月薪20000,從連續型特征來看高低薪的差異還要通過數值層面才能理解,但將其轉換為離散型數據(底薪、高薪),則可以更加直觀的表達出了我們心中所想的高薪和底薪。

3、可以有效的克服數據中隱藏的缺陷,使模型結果更加穩定

二、離散化的優勢

工業界,很少直接將連續值作為邏輯回歸模型的特征輸入,而是將連續特征離散化為一系列0、1特征交給邏輯回歸模型,這樣做的優勢有以下幾點:

1. 離散特征的增加和減少都很容易,易于模型的快速迭代;

2. 稀疏向量內積乘法運算速度快,計算結果方便存儲,容易擴展;

3. 離散化后的特征對異常數據有很強的魯棒性:比如一個特征是年齡>30是1,否則0。如果特征沒有離散化,一個異常數據“年齡300歲”會給模型造成很大的干擾;

4. 邏輯回歸屬于廣義線性模型,表達能力受限;單變量離散化為N個后,每個變量有單獨的權重,相當于為模型引入了非線性,能夠提升模型表達能力,加大擬合;

5. 離散化后可以進行特征交叉,由M+N個變量變為M*N個變量,進一步引入非線性,提升表達能力;

6. 特征離散化后,模型會更穩定,比如如果對用戶年齡離散化,20-30作為一個區間,不會因為一個用戶年齡長了一歲就變成一個完全不同的人。當然處于區間相鄰處的樣本會剛好相反,所以怎么劃分區間是門學問;

7. 特征離散化以后,起到了簡化了邏輯回歸模型的作用,降低了模型過擬合的風險。

三、離散化的方法

1、無監督學習方法

等寬法

等寬法即是將屬性值分為具有相同寬度的區間,區間的個數k根據實際情況來決定。比如屬性值在[0,60]之間,最小值為0,最大值為60,我們要將其分為3等分,則區間被劃分為[0,20] 、[21,40] 、[41,60],每個屬性值對應屬于它的那個區間

等頻法

等寬法即是將屬性值分為具有相同寬度的區間,區間的個數k根據實際情況來決定。比如有60個樣本,我們要將其分為k=3部分,則每部分的長度為20個樣本。

基于聚類的方法

基于聚類的方法分為兩個步驟,即:

選定聚類算法將其進行聚類

將在同一個簇內的屬性值做為統一標記。

注:基于聚類的方法,簇的個數要根據聚類算法的實際情況來決定,比如對于k-means算法,簇的個數可以自己決定,但對于DBSCAN,則是算法找尋簇的個數。

2、有監督學習方法:

1R方法

基于信息熵的方法

基于卡方的方法

四、總結

模型是使用離散特征還是連續特征,其實是一個“海量離散特征+簡單模型” 同 “少量連續特征+復雜模型”的權衡。既可以離散化用線性模型,也可以用連續特征加深度學習。就看是喜歡折騰特征還是折騰模型了。通常來說,前者容易,而且可以n個人一起并行做,有成功經驗;后者目前看很贊,能走多遠還須拭目以待。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3305

    瀏覽量

    49220
  • 機器學習
    +關注

    關注

    66

    文章

    8438

    瀏覽量

    133082

原文標題:機器學習模型為什么要將特征離散化?

文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    連續特征歸一的常用方法

    連續特征還有一種處理方式是,先分桶/分箱(如等頻/等距的分)[待寫]進行離散后再使用離散
    發表于 05-24 08:30

    請問如何確保ISERDES輸出數據連續性

    。但是,該設計并不能保證位的正確連續性,即使它確實保證了字的對齊。因此,例如,如果我從發送端發送0123456789ABCDEF,我將在接收端看到CDEF0123456789AB。每個單詞,例如0123
    發表于 06-01 17:18

    如何保持電源的連續性

    需要備用電源? 保持電源連續性
    發表于 02-02 06:03

    連續屬性離散的Imp-Chi2算法

    連續屬性離散機器學習數據挖掘領域中的一個重要問題,離散
    發表于 04-17 08:39 ?11次下載

    連續特征離散方法綜述

    離散特征數據挖掘的過程中具有重要的作用,如何將實際數據集中的連續特征最好地
    發表于 01-03 17:02 ?25次下載

    光學連續性測試器

    光學連續性測試器
    發表于 09-23 14:45 ?748次閱讀
    光學<b class='flag-5'>連續性</b>測試器

    發聲式連續性測試儀

    發聲式連續性測試儀 當兩個
    的頭像 發表于 09-24 14:36 ?3292次閱讀
    發聲式<b class='flag-5'>連續性</b>測試儀

    低阻抗電路的連續性測試儀

    低阻抗電路的連續性測試儀   或連續性
    發表于 09-24 14:55 ?959次閱讀
    低阻抗電路的<b class='flag-5'>連續性</b>測試儀

    解決機器人控制問題 能很好的處理離散連續動作空間

    母公司Alphabet的DeepMind的研究人員最近提出了一種技術:連續-離散混合學習,即可以同時優化離散連續動作,以其本來的形式
    發表于 01-10 09:48 ?1696次閱讀

    機器學習算法學習特征工程1

    特征工程是機器學習過程中的關鍵步驟,涉及將原始數據轉換為機器學習算法可以有效使用的格式。在本篇博
    的頭像 發表于 04-19 11:38 ?849次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>算法<b class='flag-5'>學習</b>之<b class='flag-5'>特征</b>工程1

    機器學習算法學習特征工程2

    特征工程是機器學習過程中的關鍵步驟,涉及將原始數據轉換為機器學習算法可以有效使用的格式。在本篇博
    的頭像 發表于 04-19 11:38 ?883次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>算法<b class='flag-5'>學習</b>之<b class='flag-5'>特征</b>工程2

    機器學習算法學習特征工程3

    特征工程是機器學習過程中的關鍵步驟,涉及將原始數據轉換為機器學習算法可以有效使用的格式。在本篇博
    的頭像 發表于 04-19 11:38 ?1064次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>算法<b class='flag-5'>學習</b>之<b class='flag-5'>特征</b>工程3

    連續性測試儀電路解析

    測試電路的連續性是調試硬件時必不可少的步驟。當我們沒有配備適當的工具和設備來處理它時,硬件調試可能是一個真正的痛苦。該連續性測試儀電路將為調試問題提供廉價有效的解決方案。上述電路能夠檢查兩點之間的導電路徑連接。
    的頭像 發表于 06-29 16:49 ?948次閱讀
    <b class='flag-5'>連續性</b>測試儀電路解析

    連續性測試儀電路圖分享

    連續性測試儀是一種電子設備,用于測試電路的連續性。它通過檢測電路中的電阻或電導來評估電路的連續性和完整
    的頭像 發表于 02-12 15:24 ?880次閱讀
    <b class='flag-5'>連續性</b>測試儀電路圖分享

    機器學習中的數據處理特征工程

    機器學習的整個流程中,數據處理特征工程是兩個至關重要的步驟。它們直接決定了模型的輸入質量,進而影響模型的訓練效果和泛
    的頭像 發表于 07-09 15:57 ?590次閱讀
    呼伦贝尔市| 真人百家乐官网免费开户送钱| 金塔县| 电子百家乐官网作假| 皇冠网百家乐啊| 百家乐官网园搏彩论坛| 关于百家乐概率的书| 星河娱乐城| 百家乐官网试玩| 网络娱乐场| 电子百家乐官网破| 大发888娱乐城xiazai| 百家乐官网怎么才能| 大发888二十一点| 怎样赢百家乐官网的玩法技巧和规则| 百家乐官网币| 百家乐发牌靴8| 百家乐官网好赌吗| 大发888bet亚洲| 月亮城百家乐官网的玩法技巧和规则| 百家乐游戏筹码| 百家乐官网赌场大赢家| 大发888dafabet| 温州百家乐官网的玩法技巧和规则| 新锦江百家乐娱乐场开户注册| 188金宝博| 棋牌百家乐程序破解| 百家乐官网tt娱乐城| 上海百家乐官网的玩法技巧和规则| 北京太阳城医院怎么样| 娱乐网百家乐官网的玩法技巧和规则 | 大发888com| 百家乐官网翻天在线观看| 上林县| 百家乐游戏网上投注| 新锦江百家乐官网娱乐网| 德州扑克英语| 上海百家乐赌博| 澳门百家乐官网线上娱乐城| 大发888赢钱技巧| 百家乐官网英皇娱乐|