衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習模型的可解釋性算法詳解

C29F_xilinx_inc ? 來源:賽靈思 ? 作者:賽靈思 ? 2022-02-16 16:21 ? 次閱讀

本文介紹目前常見的幾種可以提高機器學習模型的可解釋性的技術,包括它們的相對優點和缺點。我們將其分為下面幾種:

1. Partial Dependence Plot (PDP);
2. Individual Conditional Expectation (ICE)
3. Permuted Feature Importance
4. Global Surrogate
5. Local Surrogate (LIME)
6. Shapley Value (SHAP)

六大可解釋性技術

01. Partial Dependence Plot (PDP)

PDP是十幾年之前發明的,它可以顯示一個或兩個特征對機器學習模型的預測結果的邊際效應。它可以幫助研究人員確定當大量特征調整時,模型預測會發生什么樣的變化。

pYYBAGIMpVqAaaFhAABRlVr4NOQ013.jpg

上面圖中,軸表示特征的值,軸表示預測值。陰影區域中的實線顯示了平均預測如何隨著值的變化而變化。PDP能很直觀地顯示平均邊際效應,因此可能會隱藏異質效應。

例如,一個特征可能與一半數據的預測正相關,與另一半數據負相關。那么PDP圖將只是一條水平線。

02. Individual Conditional Expectation (ICE)

ICE和PDP非常相似,但和PDP不同之處在于,PDP繪制的是平均情況,但是ICE會顯示每個實例的情況。ICE可以幫助我們解釋一個特定的特征改變時,模型的預測會怎么變化。

poYBAGIMpVyAE28WAABtjMnY2h8048.jpg

如上圖所示,與PDP不同,ICE曲線可以揭示異質關系。但其最大的問題在于:它不能像PDP那樣容易看到平均效果,所以可以考慮將二者結合起來一起使用。

03. Permuted Feature Importance

Permuted Feature Importance的特征重要性是通過特征值打亂后模型預測誤差的變化得到的。換句話說,Permuted Feature Importance有助于定義模型中的特征對最終預測做出貢獻的大小。

pYYBAGIMpV2AaQNOAABOmoyoiXQ106.jpg

如上圖所示,特征f2在特征的最上面,對模型的誤差影響是最大的,f1在shuffle之后對模型卻幾乎沒什么影響,生息的特征則對于模型是負面的貢獻。

04. Global Surrogate

Global Surrogate方法采用不同的方法。它通過訓練一個可解釋的模型來近似黑盒模型的預測。

首先,我們使用經過訓練的黑盒模型對數據集進行預測;
然后我們在該數據集和預測上訓練可解釋的模型。

訓練好的可解釋模型可以近似原始模型,我們需要做的就是解釋該模型。

注:代理模型可以是任何可解釋的模型:線性模型、決策樹、人類定義的規則等。

poYBAGIMpV6AG-_EAABN555B_iQ111.jpg

使用可解釋的模型來近似黑盒模型會引入額外的誤差,但額外的誤差可以通過R平方來衡量。

由于代理模型僅根據黑盒模型的預測而不是真實結果進行訓練,因此全局代理模型只能解釋黑盒模型,而不能解釋數據。

05. Local Surrogate (LIME)

LIME(Local Interpretable Model-agnostic Explanations)和global surrogate是不同的,因為它不嘗試解釋整個模型。相反,它訓練可解釋的模型來近似單個預測。LIME試圖了解當我們擾亂數據樣本時預測是如何變化的。

pYYBAGIMpV-AL2OJAACsc1fOz3g389.jpg

上面左邊的圖像被分成可解釋的部分。然后,LIME 通過“關閉”一些可解釋的組件(在這種情況下,使它們變灰)來生成擾動實例的數據集。對于每個擾動實例,可以使用經過訓練的模型來獲取圖像中存在樹蛙的概率,然后在該數據集上學習局部加權線性模型。最后,使用具有最高正向權重的成分來作為解釋。

06. Shapley Value (SHAP)

Shapley Value的概念來自博弈論。我們可以通過假設實例的每個特征值是游戲中的“玩家”來解釋預測。每個玩家的貢獻是通過在其余玩家的所有子集中添加和刪除玩家來衡量的。一名球員的Shapley Value是其所有貢獻的加權總和。Shapley 值是可加的,局部準確的。如果將所有特征的Shapley值加起來,再加上基值,即預測平均值,您將得到準確的預測值。這是許多其他方法所沒有的功能。

poYBAGIMpWCAZz9gAABYg_zptR8122.jpg

該圖顯示了每個特征的Shapley值,表示將模型結果從基礎值推到最終預測的貢獻。紅色表示正面貢獻,藍色表示負面貢獻。

小結
機器學習模型的可解釋性是機器學習中一個非常活躍而且重要的研究領域。本文中我們介紹了6種常用的用于理解機器學習模型的算法。大家可以依據自己的實踐場景進行使用。

參考文獻
https://www.twosigma.com/articles/interpretability-methods-in-machine-le...

【免責聲明】本文轉載自:Datawhale,轉載此文目的在于傳播相關技術知識,版權歸原作者所有,如涉及侵權,請聯系小編刪除(聯系郵箱:service@eetrend.com )。

審核編輯:符乾江

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • PDP
    PDP
    +關注

    關注

    0

    文章

    53

    瀏覽量

    36256
  • 機器學習
    +關注

    關注

    66

    文章

    8438

    瀏覽量

    133084
收藏 人收藏

    評論

    相關推薦

    《具身智能機器人系統》第7-9章閱讀心得之具身智能機器人與大模型

    設計專門的編碼器處理視覺、觸覺、位置等不同類型的傳感器數據,再用cross-attention機制將它們對齊到同一語義空間。這種設計不僅提高了模型的感知能力,還增強了推理過程的可解釋性。在實驗中,RT-1
    發表于 12-24 15:03

    NPU與機器學習算法的關系

    緊密。 NPU的起源與特點 NPU的概念最早由谷歌在其TPU(Tensor Processing Unit)項目中提出,旨在為TensorFlow框架提供專用的硬件加速。NPU的設計目標是提高機器學習算法的運行效率,特別是在處理
    的頭像 發表于 11-15 09:19 ?600次閱讀

    一種基于因果路徑的層次圖卷積注意力網絡

    機電系統中數據驅動故障檢測模型的性能和可解釋性。引入了一種混合因果發現算法來發現監測變量之間的繼承因果關系。順序連接因果變量的因果路徑用作接收場,使用多尺度卷積來提取特征。基于分層注意力機制來聚合
    的頭像 發表于 11-12 09:52 ?382次閱讀
    一種基于因果路徑的層次圖卷積注意力網絡

    魯棒機器學習中的重要

    機器學習領域,模型的魯棒是指模型在面對輸入數據的擾動、異常值、噪聲或對抗性攻擊時,仍能保持性能的能力。隨著人工智能技術的快速發展,
    的頭像 發表于 11-11 10:19 ?560次閱讀

    常見AI大模型的比較與選擇指南

    在選擇AI大模型時,明確具體需求、了解模型的訓練數據、計算資源要求和成本,并考慮模型可解釋性和社區支持情況等因素至關重要。以下是對常見AI大模型
    的頭像 發表于 10-23 15:36 ?1174次閱讀

    AI大模型與深度學習的關系

    人類的學習過程,實現對復雜數據的學習和識別。AI大模型則是指模型的參數數量巨大,需要龐大的計算資源來進行訓練和推理。深度學習
    的頭像 發表于 10-23 15:25 ?1264次閱讀

    《AI for Science:人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

    。 4. 物理與AI的融合 在閱讀過程中,我對于物理與AI的融合有了更加深入的認識。AI for Science不僅依賴于數據,還需要結合物理定律和原理來確保模型的準確可解釋性。這種融合不僅提高了
    發表于 10-14 09:16

    Al大模型機器

    豐富的知識儲備。它們可以涵蓋各種領域的知識,并能夠回答相關問題。靈活性與通用: AI大模型機器人具有很強的靈活性和通用,能夠處理各種類型的任務和問題。持續
    發表于 07-05 08:52

    機器學習算法原理詳解

    機器學習作為人工智能的一個重要分支,其目標是通過讓計算機自動從數據中學習并改進其性能,而無需進行明確的編程。本文將深入解讀幾種常見的機器學習
    的頭像 發表于 07-02 11:25 ?1359次閱讀

    深度學習模型訓練過程詳解

    深度學習模型訓練是一個復雜且關鍵的過程,它涉及大量的數據、計算資源和精心設計的算法。訓練一個深度學習模型,本質上是通過優化
    的頭像 發表于 07-01 16:13 ?1503次閱讀

    機器學習的經典算法與應用

    關于數據機器學習就是喂入算法和數據,讓算法從數據中尋找一種相應的關系。Iris鳶尾花數據集是一個經典數據集,在統計學習
    的頭像 發表于 06-27 08:27 ?1729次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>的經典<b class='flag-5'>算法</b>與應用

    【大規模語言模型:從理論到實踐】- 閱讀體驗

    直觀地解釋和理解。這可能會影響模型可解釋性和可信賴,特別是在需要高度可靠的場景中。 通過修改注意力機制的計算方式或引入新的架構來降低
    發表于 06-07 14:44

    【大語言模型:原理與工程實踐】核心技術綜述

    中應用,需要考慮到性能、可擴展性和安全等因素。 大語言模型正在快速發展,新技術不斷涌現。未來的研究可能集中在提高模型效率、理解和可解釋性以及確保
    發表于 05-05 10:56

    Meta發布SceneScript視覺模型,高效構建室內3D模型

    Meta 表示,此模型具備創建室內 3D 模型的高效與輕便,僅需幾KB內存便能生成完整清晰的幾何圖形,同時,這些形狀數據具備可解釋性,便于用戶理解和編輯。
    的頭像 發表于 03-26 11:16 ?615次閱讀

    AI算法在礦山智能化中的應用全解析

    調度、強化學習、異常檢測和診斷以及數據融合和信息集成等方面。此外,還需關注數據基礎設施、系統集成、網絡安全、人工智能倫理和可解釋性等問題。通過整合這些技術和方法,礦山企業可以提高生產效率、降低風險、減少成本,實現可持續發展。
    的頭像 發表于 03-20 10:59 ?754次閱讀
    AI<b class='flag-5'>算法</b>在礦山智能化中的應用全解析
    百家乐官网大路小路三珠路| 百家乐赌博代理荐| 百家乐最新打法| 代理百家乐试玩| 溧水县| 百家乐的赚钱原理| 赌博堕天录漫画| 凱旋门百家乐官网的玩法技巧和规则| 免费百家乐追号工具| 线上百家乐官网代理| 澳门赌百家乐的玩法技巧和规则| 百家乐官网现场投注平台| 免费下百家乐赌博软件| 必博百家乐官网游戏| 百家乐可以作假吗| 百家乐官网网投注| 威尼斯人娱乐骰宝| 百家乐官网玩揽法大全| 大发888游戏平台 df888ylc3403| 678百家乐官网博彩娱乐网| 真人游戏角色| 运城百家乐官网的玩法技巧和规则 | 百家乐出千方法技巧| 百家乐官网平投注法| 威尼斯人娱乐城免费注册| 蓝盾百家乐官网娱乐场开户注册| 威尼斯人娱乐城老lm0| 中国百家乐官网技巧| 大发888娱乐场18| 百家乐百家乐群| 怀安县| 百家乐制胜软件| 百家乐官网单机版游戏下载| 威尼斯人娱乐城网| 正品百家乐官网的玩法技巧和规则| 恒和国际| 百家乐公式软件| 网络百家乐官网赌博赢钱| 波克城市棋牌下载| 澳门百家乐娱乐城开户| 金城百家乐官网玩法平台|