解析機器學習的局限與明天
在論壇開場之初,戴文淵引出主題:機器學習的明天是一個很難的問題,公眾關心更多的可能是機器學習或深度學習,以及隨阿法狗出現火起來的強化深度學習。機器學習的明天很可能是今天大家看來是一個冷板凳的領域,正如20年前的深度學習。因此今天要談的明天的機器學習,戴文淵認為一定不是深度學習。因此,本次論壇要探討的很可能是一個在大家看來會覺得離應用很遠、很不現實的事物,但是很可能會成為十年后重要機器學習方向之一。
? ? ? ?今日頭條科學家李磊帶來的演講是《會思考的通用智能機器還有多遠?》。在演講中,李磊主要對人工智能是什么?人工智能發展到什么程度以及面臨的挑戰三個方面進行了闡述,李磊首先闡述了對人工智能的兩種定義:類人智能和理性智能。類人智能的目標是讓機器像人那樣思考、決策、解決問題,具備學習能力和行動能力。理性智能是研究如何通過計算方法達到合理的感知、決策、解決問題、學習和行為能力。不是和人去比較,而是把計算看成自然現象。
人工智能要研究的內容十分廣泛,包括知識表示、形式化推理、規劃與決策、機器學習、理解文字、自然語言(人類語言)、語音識別與合成、理解圖像、視覺感知以及機器人控制。目前人工智能在某些具體任務上達到或超過人類能力,但通用型智能還有漫漫長路。
李磊介紹到頭條最近發布了一款奧運機器人,可以在奧運期間自動發布了450條新聞。他談到經過過去多次的實踐證明:深度學習加大數據可以較好地解決監督學習的問題。
深度學習從人腦解決問題的的思路出發,創造了人工神經網絡和人工神經單元的概念,隨著層數的加深,神經網絡能夠完成一些合理對話之類的任務。但是仍需注意人工智能和機器學習不僅僅是監督學習和深度學習,要解決的問題其實更多,目前的深度學習還有很大的局限性,例如依賴大量標注數據,并且這些數據的獲取代價非常高;此外,目前的深度學習的通用性還不夠強。
最后,李磊總結了明天機器學習需要突破的三個方面:
需要有可解釋性的機器學習,當機器學習模型成功和失敗的時候,需要知道它成功或者失敗的原因;機器學習能夠做更多的推理,而不僅僅是簡單的判斷;過去做深度學習時需要很多的計算集群,需要耗費大量的能力,未來的是否可以實現在不影響性能的情況下實現單位能耗呢?
林宙辰:機器學習一階優化算
? ? ? ?北京大學信息科學技術學院機器感知與智能教育部重點實驗室教授林宙辰帶來的分享是 《機器學習一階優化算法》。他主要分享了機器學習在過去、現在、未來的優化方面的問題。從上個世紀90年代,優化技術就已經發展的比較完備了。在此之前,可以劃分為兩個階段,第一階段到上世界60年代,此前的優化方法較為緩慢;在60年代到90年代,隨著計算機的發明,有著很大進展。
按照當時所用信息類別可以劃分為三類:
第一類是只用目標函數的方法;第二類是一階的方法,也就是目標函數和梯度方法;第三類是二階方法,如Newton’s Methods、Sequential Quadratic Programming、Interior Point Methods。
接著,林宙辰談到了選擇一階方法的兩個原因,并認為一階的方法是機器學習里面一個主流的學習方法。
因為一階方法對數字精度的要求不太高;一階方法的存儲和和計算的成本較低。
從90年代到現在,主要是對一些現有的方法進行復興和更好的改進。接著,他總結了一階方法從過去到現在的研究進展,主要包括六個方面:
Smooth -》 Nonsmooth:光滑可以對每一個點選一個梯度,選非光滑就不能選梯度,那么次梯度就比較慢,現在就是使用Proximal; Convex -》 Nonconvex:首先一般只能證明非真的,如果好一點就每個據點都會收到臨界點上面,2012年開始有一個非常好的理論突破,就是把這個幾何理論引入到優化里面,常用的函數基本都屬于這種函數類型;Deterministic -》 Stochastic:在大數據情況下,很難能夠有計算量支持確定性,所以只能隨機抽取一些樣本來算,2013年張老師提出來方差下降,可以進行加速; One/Two Blocks -》 Multiple Blocks:如果是一個或者兩個Block可以作為一個交界;Synchronous -》 Asynchronous:同步會導致很多機器要等著其他的機器算完之后才能進行分析,所以需要異步; Convergence & Convergence Rate:Convergence Rate分析方面有更好的技術,尤其是加速差值技巧。
演講結尾,林宙辰表示,未來的機器研究方面會集中在兩個方向:
計算的規模會進一步增加,需要采用完全隨機的方式進行,否則大數據之下是無法完成這些計算的;利用量子計算的方法來參與規劃,可以在兩個層面進行:
將傳統的算法每個步驟進行量子化;在整體上設計量子的算法。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%