隨著移動互聯網和物聯網的快速普及,全球數據總量呈指數級增長。據雷鋒網統計,我們每天創造約2.3萬億GB數據。
過去,人們對海量數據無從下手。隨著大數據與人工智能、云計算、物聯網、區塊鏈等前沿技術的緊密融合以及硬件基礎設施的快速發展,這些新興技術為數據增值提供了強有力保障,由此帶來了巨大商業應用價值,并逐漸成為各國搶占下一步發展機遇的戰略性技術。
最近,美國政府啟動了大數據研究計劃,致力于提升大數據分析算法和系統的效率;同時,日本對信息產業提出新的戰略規劃,將大數據作為重點發展的科技領域,著重強調數據采集與分析;近年來,我國大數據產業蓬勃發展。中國信通院在2018年發布的《大數據白皮書》進一步調動了全國各地發展大數據的積極性,各行各業開始利用大數據進行智能升級轉型。
在大數據技術中,數據分析逐漸成為其核心技術,包括對數據處理的實時性成為工業界的主要需求。當前,各種數據分析技術層出不窮。其中,最為引人關注的當屬深度學習技術。
一、深度學習是最好的方法之一
深度學習仍是目前大數據處理與分析的最好方法之一。
深度學習擅于發掘多維數據中錯綜復雜的關系。基于大數據的深度學習算法在計算機視覺、自然語言處理以及信息檢索等多個領域不斷刷新著記錄。
在這個數據為王的時代,深度學習中的監督/半監督學習與數據規模、數據質量等有很大關系,因此數據標注是在現實場景中提升模型性能的最直接有效的方法。
但由于傳統的數據集數量/質量有限,在解決新的問題或是想要獲得更好的效果時,往往需要進行額外的數據標注。因此,對于數據要求不那么高的半監督/弱監督學習一直是視覺大數據處理中的熱點問題。同時,當使用某數據集訓練了一個很好的模型,但在實際應用時,往往由于“領域鴻溝”(domain gap)的存在,模型性能大幅度下降,遷移學習是這一問題的常用解決思路。
此外,由于移動設備或物聯網設備的存儲和計算資源有限,無法像服務器一樣輕松地運行訓練好的模型,限制了深度學習技術在大數據領域的應用落地,針對此問題,目前有效的解決方案包括模型壓縮、計算加速。
生成對抗網絡Generative Adversarial Networks (GANs)的提出,為神經網絡添加了一個新的分支。該網絡結構能極大提高圖像生成的質量,進一步推動了計算機視覺領域的發展。
近幾年,計算機視覺正在向視頻理解領域延伸,而視頻比圖像多了一維時序信息,如何有效建模并利用這一時序信息是處理這類問題的關鍵。
深度強化學習是大數據時代的另一研究熱點,強化學習是主體通過與外部環境交互來進行學習的過程。目前已經取得了實質性的突破,2017年DeepMind公司的提出的AlphaGo Zero通過自我博弈的強化深度學習算法進行訓練,經過3天的學習,以100:0的成績超越了AlphaGo Lee的實力(以4:1戰勝李世石的版本),21天后達到了AlphaGo Master的水平,并在40天內超過了所有之前的版本。
自2017年以來,AutoML(Automated machine learning)迅速興起,AutoML試圖將特征提取、模型優化、參數調節等重要步驟進行自動化地學習,使得機器學習模型無需人工干預即可被應用。但目前其在搜索效率、實際應用等方面有待進一步探索。
二、計算機視覺
計算機視覺是人工智能領域最為成熟的技術之一,其主旨在于利用計算機模擬人類視覺,是人工智能中的‘看’,進而為后續的應用目標提供判別信息。計算機視覺研究和應用非常廣泛,近幾年取得了快速的發展,其應用已經在政府、金融、互聯網等行業市場率先落地。
此外,利用大數據可以對實體經濟行業進行市場需求分析,優化生產流程、供應鏈與物流能源管理,以及提供智能客戶服務等。雖然大數據已經服務于眾多行業,但是在實際應用中還有很多局限,仍舊有很多問題沒有解決。
近年來,國家對人工智能行業的大力支持為計算機視覺的發展提供了有利環境,極大促進了計算機視覺的商業化落地。目前我國共有100余家計算機視覺企業,涉獵身份認證、安防影像、醫療影像等眾多領域。
目前CV公司比較集中的技術賽道有:人臉識別、自動駕駛、醫療圖像等,目前商業化落地最快的仍是人臉識別及其業務相關的一些技術。
縱觀計算機視覺發展,可以看到中國與西方國家的演進路線的不同。國際上前沿的技術主要集中在深度學習的基礎研究層面,而中國的計算機視覺技術更傾向于產業落地。經過多年的沉淀,中國已經在人才、數據、場景和政策層面做了比較多的儲備,為中國計算機視覺技術的發展提供了豐沃的土壤。
尤其是在應用方面。計算機視覺領域一定要通過落地應用才能更好推動學術的發展,而中國在這方面具有巨大的優勢。
-
大數據
+關注
關注
64文章
8908瀏覽量
137799 -
深度學習
+關注
關注
73文章
5515瀏覽量
121553
發布評論請先 登錄
相關推薦
評論