1. 時代的機遇:誰會成為人工智能時代的ARM
1.1人工智能時代:AI+將無處不在
隨著大數據的發展,計算能力的提升,人工智能近兩年迎來了新一輪的爆發。2016年谷歌AlphaGo贏得了圍棋大戰后,人工智能在產業界和資本圈引起了高度關注,成為新的風口。
人工智能的三個核心要素是數據、算法和計算能力。人工智能之前經歷過數次興衰,一直未能取得突破的障礙主要是數據和計算能力的限制。相比前幾次的熱潮,目前人工智能在數據、算法和計算能力方面都有堅實的基礎。因此,我們相信人工智能并不僅是一個風口,而是即將迎來真正屬于自己的時代。
人工智能并不是一個單獨的存在,而必須要和其他產業結合起來才能創造提升效率,創造價值。未來將不存在所謂的人工智能,而是人工智能和其他產業的融合,也就是AI+。展望未來,AI+將無處不在。
按照當前人工智能實現的基本功能來分類,主要有四部分:圖像認知能力、語音語義理解能力、數據分析能力、整合多種能力的機器人(300024)。下面我們將分別按這幾種基本功能來介紹人工智能的應用:
人工智能整體仍處市場早期,但是未來空間巨大。根據國外調查機構Tractica的統計預測數字,2016年全球人工智能收入為6.4億美元,到2025年預計將增長至368億美元。從人工智能的主要構成來看,規模最大的細分市場分別是機器學習應用、自然語言理解、計算機視覺、虛擬個人助手和智能機器人等。在未來10年甚至更久的時間里,人工智能將是眾多智能產業技術和應用發展的突破點,市場空間非常巨大。
在產業發展史中,每一場重要的產業變革總會帶來新的重大機遇。如果能夠在新興產業中占據核心產業鏈位臵,必將能夠充分享受新興產業爆發性增長帶來的紅利。ARM在智能手機時代的經歷就是最好的例證。ARM公司歷史簡介如下:
ARM公司1978年在英國成立。1985年,ARM設計了第一代32位、6MHz的處理器,用它做出了一臺RISC指令集的計算機。ARM采用的RISC指令集,全稱是“精簡指令集計算機”(reducedinstructionsetcomputer),它支持的指令比較簡單,雖然功能遠不如英特爾處理器強大,但是功耗小、價格便宜。
當時處理器行業的霸主是英特爾,它采用的是X86的CISC指令集,占據著PC處理器市場絕大多數的市場份額。ARM處理器能力不足,根本無法撼動英特爾在PC處理器的市場份額。
ARM處理器另辟蹊徑,在嵌入式設備市場找到了發展空間。它被廣泛用在各種嵌入式設備中,包括蘋果公司的牛頓PDA。這些嵌入式設備不需要處理器性能多么強大,而對功耗價格卻有很高的要求,這與ARM處理器的特性正好一拍即合。
盡管找到了市場立足點,但是整個20世紀90年代,ARM公司的業績平平,處理器的出貨量徘徊不前。直到進入21世紀之后,由于手機的快速發展,ARM處理器迎來了快速增長。
而在2007年,ARM迎來了歷史性的機遇——智能手機時代的到來。2007年,喬布斯發布了第一代iPhone,使用的就是三星制造、ARM設計的芯片。此后的每一款iPhone都采用了ARM架構,稍后推出的谷歌Android手機同樣采用了ARM架構。
ARM架構成為了智能手機的“事實標準”。2015年,包括高通、三星、聯發科等在內的全球1384家移動芯片制造商都采用了ARM的架構,全球有超過85%的智能手機和平板電腦的芯片都采用的是ARM架構的處理器,超過70%的智能電視也在使用ARM的處理器。
在此期間,ARM公司營業收入從2008年的3億英鎊增長到2013年的7.14億英鎊,同期凈利潤從0.44億英鎊增至2億英鎊,凈利潤CAGR為35.6%。
從股價表現來看,ARM股價受08年金融危機影響下跌到2008年底的80多英鎊,此后兩年多,連續上漲到2011年初的600多英鎊,期間漲幅超過600%。
總結起來,ARM公司之前在嵌入式處理器這個小眾市場中占據領導地位,業績一直徘徊不前。而后隨著智能手機市場爆發,ARM處理器作為整個智能手機的底層硬件平臺架構,充分享受了下游市場爆發帶來的紅利。ARM公司業績在2008年到2013年出現了爆發性增長,而股價更是表現出“戴維斯雙擊”。
1.3 人工智能時代:底層計算平臺存在著大機會
在人工智能時代,人們對計算能力的需求有指數級的提高,計算能力的要求超過了摩爾定律。隨著互聯網用戶的快速增長,數據體量的急劇膨脹,數據中心對計算的需求也在迅猛上漲。諸如深度學習在線預測、直播中的視頻轉碼、圖片壓縮解壓縮以及HTTPS加密等各類應用對計算的需求已遠遠超出了傳統CPU處理器的能力所及。除此之外,未來在激光雷達、無人機、無人駕駛、智能機器人等終端設備方面對計算能力也會有極大的提升。
另一方面,摩爾定律正在失效,傳統X86架構下計算能力的提升開始滯后于摩爾定律。近幾年半導體技術改進達到了物理極限,電路越來越復雜,每一個設計的開發成本高達數百萬美元,數十億美元才能形成新產品投產能力。2016年3月24日,英特爾宣布正式停用“Tick-Tock”處理器研發模式,未來研發周期將從兩年周期向三年期轉變。至此,摩爾定律對英特爾幾近失效。
因此,計算能力的需求供給出現了一個巨大的缺口。一方面處理器性能再無法按照摩爾定律進行增長,另一方面數據增長對計算性能要求超過了按“摩爾定律”增長的速度。處理器本身無法滿足高性能計算(HPC:High Performance Compute)應用軟件的性能需求。
巨大的缺口同時也是時代的機遇:傳統X86架構芯片無法滿足需求,時代呼喚新一代的計算芯片平臺。誰能成為下一代硬件芯片平臺,就有望隨著海量計算需求的大爆發,上演ARM在智能手機時代爆發的輝煌。
2. 人工智能芯片決勝的主戰場在推理環節
提起人工智能芯片,很多人認為人工智能芯片是一條好的賽道,但是勝負已經明了,英偉達就是最終的贏家。特別是隨著2016年以來人工智能的浪潮,英偉達股價從不到20美元一路上漲到160多美元,更是助長了這種情緒的蔓延。
我們的觀點很簡單:目前,英偉達的GPU在訓練場景中占據著絕對領導地位。而人工智能整體仍然處于早期階段,未來人工智能應用的主戰場是在推理環節,遠沒有爆發。未來勝負尚未可知,各家技術路線都有機會勝出。
從應用場景來看,人工智能芯片主要應用在訓練(training)和推理(inference)兩個環節。訓練環節的作用是指利用海量數據(603138),選擇合適的訓練方法,訓練出一個人工智能模型。訓練環節最關心的指標是速度快。國內外的人工智能巨頭公司都建立了龐大的GPU集群,以最快速度處理海量數據訓練、驗證模型的有效性。
而在線推理環節也就是人工智能模型的實際應用環節,是指利用訓練出來的模型來在線響應用戶的需求。推理環節又分為兩個場景,一個是在云端數據中心響應用戶需求,一個是在前端智能設備響應用戶需求。
在云端數據中心,各家公有云服務廠商都紛紛部署了高性能云計算服務器,應用于視頻編解碼、深度學習、科學計算等多種場景。隨著人工智能技術的發展,未來云端數據中心應用場景還會有極大的豐富。
而在前端智能設備,受模型算法以及計算能力的限制,目前應用還不多。但是基于實時性及隱私安全要求,很多應用都會在前端部署,未來市場空間非常巨大。我們以無人駕駛和智能服務機器人為例說明。
在無人駕駛中,無人駕駛汽車需要實時處理來自激光雷達、攝像頭等多路傳感器傳輸的海量數據并作出實時反映。如果通過云端反饋處理,則必然會增加時延和不確定性,導致無人汽車安全性下降。因此,無人駕駛中必須將計算平臺部署在前端。
在智能家居中,未來包括智能服務機器人在內的智能家居設備都需要具備實時環境感知能力及語音語義理解能力等,這些也都需要強大的計算平臺作為底層支撐。而基于私密性考慮,不可能把智能家居的數據都上傳云端處理。因此,智能家居的應用也需要計算平臺部署在前端設備中。
與訓練環節不同,推理環節更重視性能功耗比。云端數據中心對高并發更加重視,而前端智能設備則對低延時更加重視。
從市場潛力來看,未來市場規模最大的肯定是推理環節。人工智能的發展,首先需要訓練出足夠好的算法模型。而當人工智能真正落地應用時候,則需要在大量的云端數據中心或者前端智能設備上部署應用。
以人臉識別為例,我們需要在GPU集群中經過多次訓練才能得到一個足夠好的人臉識別算法模型,而當把人臉識別應用于實際應用時候,我們需要將模型部署在成千上萬臺服務器進行實時人臉識別,甚至在上億臺攝像機中前臵部署部分算法進行預處理。由此可見,推理環節才是未來最大的潛在市場,也是人工智能芯片決勝的主戰場。在推理環節還遠沒有爆發的時候。未來勝負尚未可知,各家技術路線都有機會勝出。
3.幾種芯片架構的技術特點:各有千秋
人工智能芯片,目前有兩種發展路徑:一種是延續傳統計算架構,加速硬件計算能力,主要以3種類型的芯片為代表,即GPU、FPGA和ASIC,但CPU依舊發揮著不可替代的作用;另一種是顛覆經典的馮諾依曼計算架構,采用人腦神經元的結構來提升計算能力,以IBMTrueNorth芯片為代表。由于人腦神經元芯片距離產業化仍然較遠,我們著重討論在人工智能時代GPU,FPGA和ASIC的應用和未來發展可能性。
按照處理器芯片的效率排序,從低到高依次是CPU、DSP、GPU、FPGA和ASIC。沿著CPU-》ASIC的方向,芯片中晶體管的效率越來越高。因為FPGA&ASIC等芯片實現的算法直接用晶體管門電路實現,比起指令系統,算法直接建筑在物理結構之上,沒有中間層次,因此晶體管的效率最高。CPU&GPU需要軟件支持,而FPGA&ASIC則是軟硬件一體的架構,軟件就是硬件。
而按照晶體管易用性排序是相反的。從ASIC到CPU,芯片的易用性越來越強。CPU&GPU的編程需要編譯系統的支持,編譯系統的作用是把高級軟件語言翻譯成機器可以識別的指令(也叫機器語言)。高級語言帶來了極大的便利性和易用性,因此用CPU&GPU實現同等功能的軟件開發周期要遠低于FPGA&ASIC芯片。
3.1 CPU仍然是最好的通用處理器之一
CPU作為通用處理器,兼顧計算和控制,70%晶體管用來構建Cache還有一部分控制單元,用來處理復雜邏輯和提高指令的執行效率,如圖所示,所以導致計算通用性強,可以處理計算復雜度高,但計算性能一般。
目前,英特爾等芯片制造商主要通過增加CPU核數來增加計算能力,但是因為每個物理核中只有30%的晶體管是計算單元。通過這種方式來增加計算能力并不劃算,還帶來芯片功耗和價格的增加。
此外,英特爾進行CPU架構調整的時間也在放緩。原來英特爾按照“Tick-Tock”二年一個周期進行CPU架構調整,從2016年開始放緩至三年,更新迭代周期較長。
由此可見,CPU仍然最好的通用處理器之一,但是在高性能計算上,CPU越來越無法滿足計算能力提升的需求。
3.2 GPU具有最強大的并行計算能力
GPU主要擅長做類似圖像處理的并行計算,所謂的“粗粒度并行(coarse-grainparallelism)”。圖形處理計算的特征表現為高密度的計算而計算需要的數據之間較少存在相關性,GPU提供大量的計算單元(多達幾千個計算單元)和大量的高速內存,可以同時對很多像素進行并行處理。
GPU的設計出發點就是用于計算強度高、多并行的計算。GPU把晶體管更多用于計算單元,而不像CPU用于數據Cache和流程控制器。GPU中邏輯控制單元不需要能夠快速處理復雜控制。并行計算時,每個數據單元執行相同程序,不需要繁瑣的流程控制而更需要高計算能力,因此也不需要大的cache容量。
GPU同CPU一樣也是指令執行過程:取指令-》指令譯碼-》指令執行,只有在指令執行的時候,計算單元才發揮作用。GPU的邏輯控制單元相比CPU簡單,要想做到指令流水處理,提高指令執行效率,必然要求處理的算法本身復雜度低,處理的數據之間相互獨立,所以算法本身的串行處理會導致GPU浮點計算能力的顯著降低。
GPU具有最強大的并行計算處理能力。以GP100為例,其雙精度運算能力是5.3Teraflops,單精度為10.6Teraflops(AMD雙芯RadeonProDuo是16TeraFLOPs)。而英偉達在開發者大會GTC2017上發布新一代GPU架構Volta,首款核心為GV100據稱其在推理場景下,V100比上一代搭載GP100CPU的P100板卡,圖像處理能力提升了約10倍,延遲也下降了約30%。
3.3 FPGA:萬能芯片
FPGA即現場可編程門陣列,它不采用指令和軟件,是軟硬件合一的器件。FPGA由于算法是定制的,沒有CPU和GPU的取指令和指令譯碼過程,數據流直接根據定制的算法進行固定操作,計算單元在每個時鐘周期上都可以執行,所以可以充分發揮浮點計算能力,計算效率高于CPU和GPU。
整個FPGA市場規模約50億美元。由于FPGA萬能芯片的特點,它被芯片廠商用作芯片原型設計和驗證,還廣泛使用在通訊密集型和計算密集型市場中,使用行業包括通訊、軍工、汽車電子、消費及醫療等行業。
FPGA的缺點在于進行編程要使用硬件描述語言,而掌握硬件描述語言的人才太少,限制了其使用的拓展。
3.4 ASIC:高性能功耗比的專用芯片
ASIC是一種專用芯片,與傳統的通用芯片有一定的差異。是為了某種特定的需求而專門定制的芯片。ASIC芯片的計算能力和計算效率都可以根據算法需要進行定制,所以ASIC與通用芯片相比,具有以下幾個方面的優越性:體積小、功耗低、計算性能高、計算效率高、芯片出貨量越大成本越低。但是缺點也很明顯:算法是固定的,一旦算法變化就可能無法使用。
與FPGA相比,ASIC上市速度慢,需要大量時間開發,而且一次性成本(光刻掩模制作成本)遠高于FPGA,但是性能高于FPGA且量產后平均成本低于FPGA。在同一時間點上用最好的工藝實現的ASIC的加速器的速度會比用同樣工藝FPGA做的加速器速度快5-10倍,而且一旦量產后ASIC的成本會遠遠低于FPGA方案。
4. FPGA未來大有可為
從技術上來看,GPU、FPGA和ASIC都各有千秋。從實際應用來看,GPU擁有最完善的生態系統支撐,具有較大的先發優勢。由于市場對此已經充分預期,我們在此就不再贅述。
人工智能在推理環節應用剛起步,云端要比前端設備發展速度更快。下面我們將重點講述一下云端數據中心的應用。在數據中心,FPGA使用日益廣泛,而ASIC路線風險太高,目前僅有谷歌批量部署了TPU。
4.1 FPGA已在全球七大數據中心實際部署
FPGA最大的優點是動態可重配、性能功耗比高,非常適合在云端數據中心部署。
當在數據中心部署之后,FPGA可以根據業務形態來配臵不同的邏輯實現不同的硬件加速功能。以騰訊云為例,當前服務器上的FPGA板卡部署的是圖片壓縮邏輯,服務于業務;而此時廣告實時預估需要擴容獲得更多的FPGA計算資源,通過簡單的FPGA重配流程,FPGA板卡即可以變身成“新”硬件來服務廣告實時預估,非常適合批量部署。
FPGA的性能功耗比顯著高于GPU。以普遍使用在服務器中的FPGA型號A10GX660為例,性能/功耗能達到45GFLOPS/W,而對應的GPU型號M4,性能/功耗能達到29GFLOPS/W。依次測算FPGA性能功耗比要高50%。
近兩年,全球七大超級云計算數據中心包括IBM、Facebook、微軟、AWS以及BAT都采用了FPGA服務器。在這方面,中國和美國處以同一起跑線。
4.2 行業發展趨勢:FPGA大有可為
比使用現狀更重要的是未來的技術和產業發展趨勢。從行業發展趨勢來看,我們認為FPGA潛力被低估了,未來大有可為。具體如下:
4.2.1 算法正在快速迭代中
人工智能算法正處于快速迭代中。雖然ASIC芯片可以獲得最優的性能,即面積利用率高、速度快、功耗低;但是AISC開發風險極大,需要有足夠大的市場來保證成本價格,而且從研發到市場的時間周期很長,不適合例如深度學習CNN等算法正在快速迭代的領域。因此,推出ASIC芯片風險非常高,且成本太高,只有谷歌等極少數公司敢于嘗試。
更重要的是,當前人工智能算法模型的發展趨勢是從訓練環節向推理環節走,這個過程非常有利于FPGA未來的發展。人工智能算法模型從訓練環節走向推理環節并不是簡單搬運過去。訓練出來的算法模型往往規模太大,復雜度太高,無法直接部署實際應用。現在,人工智能算法模型研究的重要趨勢就是將訓練后的模型再進行壓縮,在基本不損失模型精度的情況下,將模型壓縮到原來的幾十分之一,再應用到推理環節。
以深鑒科技的研究成果為例,公司發布的論文《ESE :Efficient Speech Recognition Engine with Sparse LSTM on FPGA 》指出,長短期記憶網絡(LSTM)被廣泛用于語音識別領域。為實現更高的預測精度,機器學習研究者們構建了越來越大的模型。然而這樣的模型十分耗費計算和存儲資源。部署此類笨重的模型會給數據中心帶來很高的功耗,從而帶來很高的總擁有成本(TCO)。
公司提出了一種可以在幾乎沒有預測精度損失的情況下將LSTM模型的尺寸壓縮20倍(10倍來自剪枝和2倍來自量化)的負載平衡感知剪枝(load-balance-awarepruning)方法。
最后,它們設計了一種可以直接在這種壓縮模型上工作的硬件框架——EfficientSpeechRecognitionEngine(ESE)。該框架使用了運行頻率為200MHz的XilinxXCKU060FPGA,具有以282GOPS的速度直接運行壓縮LSTM網絡的性能,相當于在未壓縮LSTM網絡上2.52TOPS的速度;此外,該框架執行一個用于語音識別任務的全LSTM僅需41W功耗。在基于LSTM的語音基準測試中,ESE的速度為英特爾Corei75930kCPU的43倍,英偉達PascalTitanXGPU的3倍。它的能量效率分別為以上兩種處理器的40倍和11.5倍。
這篇論文驗證了我們上述觀點:
人工智能算法正處于快速迭代中。公司提出的新算法,可以在幾乎沒有預測精度損失的情況下將LSTM模型的尺寸壓縮20倍(10倍來自剪枝和2倍來自量化)。在算法能夠帶來數量級的性能提升下,想要將算法固化在ASIC中來獲得效率提升的想法是不切實際的。
采用了搭建在FPGA上的硬件框架ESE,獲得了高一個數量級的能量效率提升。ESE的速度為英特爾Corei75930kCPU的43倍,英偉達PascalTitanXGPU的3倍。它的能量效率分別為以上兩種處理器的40倍和11.5倍。采用FPGA搭建硬件框架充分發揮了FPGA萬能芯片的特性,性能遠超GPU等。
4.2.2 芯片NRE費用在指數級上升
集成電路行業的特點是贏家通吃,像CPU處理器,只有英特爾一家獨大,門檻極高。而隨著芯片制程工藝的提升,芯片NRE費用呈現指數級上升。這樣導致的結果是需要收回成本的芯片銷售規模門檻越來越高。市場上能夠滿足如此大市場規模要求的單品是非常少的。
而FPGA則可以受益于指數級成本上升帶來的規模效應。因為FPGA的NRE成本可以攤到上千個小項目上,從而讓每個項目只分擔幾十萬美元的NRE。比如開發一款14nm的FPGA,假設需要一億美元,其性能可以達到45nmASIC的水平。然后有1000個有45nm工藝要求的項目可以采用該FPGA來解決問題,他們支付不了45nm工藝數千萬美元的NRE,但是通過分攤的方式每家支付幾十萬美元可以使用14nm的FPGA產品。
因此,隨著芯片NRE費用指數級上升,越來越多的ASIC芯片將由于達不到規模經濟而被迫放棄,從而轉向直接基于FPGA開發設計。而FPGA可以受益于指數級成本上升帶來的規模效應。
5.投資建議
5.1 FPGA行業呈現雙寡頭格局
FPGA動態可重配的,性能功耗比高,非常適合在云端數據中心部署。目前,FPGA云服務器也已經在全球七大超級數據中心得到了部署,未來出貨量增長值得密切關注。
從行業發展趨勢來看,無論是快速迭代的算法,還是指數級增長的NRE費用,都有利于FPGA的發展。FPGA未來的發展大有可為。
FPGA行業呈現典型的雙寡頭競爭格局,主要有4家生產廠家都在美國。根據Gartner的數據,FPGA器件的廠家主要有Xilinx(賽靈思)、Altera(阿爾特拉)、Lattice(萊迪思)和Microsemi(美高森美),這四家公司都在美國,總共占據了98%以上的市場份額。其中全球份額Xilinx占49%,另一家Altera占39%,剩余的占比12%。
近兩年,FPGA行業展開了多項并購,但是對競爭格局影響不大。2015年6月,英特爾宣布以167億美元收購Altera(阿爾特拉)。2016年上半年,紫光在公開市場收購Lattice(萊迪思)股權6.07%,11月萊迪思被Canyon Bridge以13億美元收購,但此案一直沒有獲得美國監管單位同意。
目前國內能夠生產FPGA的上市公司僅有紫光國芯(002049),而非上市公司有智多晶和AgateLogic等。
5.2 投資標的
5.2.1 賽靈思(XLNX.O)
Xilinx(賽靈思)是全球領先的可編程邏輯完整解決方案的供應商。世界上第一個FPGA就是由賽靈思設計的。賽靈思擁有FPGA市場超過50%的市場份額,下游客戶超過2萬家,產品被廣泛使用在芯片原型驗證、通訊、工業、宇航軍工、汽車電子等行業。
賽靈思推出了面向數據中心的FPGA解決方案,已經被亞馬遜、騰訊、百度等多家云服務商所采納。FPGA解決方案的靈活性、高并發和高性能功耗比具有很強的競爭優勢,能夠帶來更低的全生命周期成本。
除了在數據中心端的產品之外,賽靈思在前端設備方面也有非常多的積累。以ADAS為例,公司是第二大的半導體供應商,正在與26家制造商正在密切合作開發96款產品。
為了彌補FPGA采用硬件描述語言、使用難度大的缺點,賽靈思積極打造自身的生態圈,推出reVision堆棧,幫助合作伙伴更方便地使用公司產品。
5.2.2 紫光國芯
公司是國內稀缺的FPGA標的。公司旗下的國微電子是國內特種IC的設計龍頭,是國內上市公司中唯一能夠量產FPGA的廠商,稀缺性明顯。公司FPGA、ASIC和特種微處理器常年為軍方穩定供貨。
公司的商用可編程系統芯片的開發進展順利,在2016年9月正式推出國內首款內嵌高速接口(serdes)的千萬門級高性能FPGA芯片——PGT180H。該芯片首次集成了傳輸速率達到6.5Gbps的高速serdes模塊,最大規模可編程達到1800萬門,支持最高速率1066MbpsDDR3接口。無論從規模還是性能角度,PGT180H都代表了國內自主知識產權FPGA芯片的最高水平。
我們預計公司2017年-2019年營業收入分別為16.億元、19億元和20億元,對應每股收益分別為0.71元、0.86元和0.99元,對應PE分別為35、29和25倍。按照公司2017年40倍市盈率,給予6個月目標價28.4元,維持公司“推薦”評級。
6. 風險提示
1、人工智能應用不及預期的風險;
2、技術路線競爭激烈的風險。
評論
查看更多