寧德時代是綠色發(fā)展生態(tài)理念的重要響應(yīng)者和實踐者。為應(yīng)對全球市場動力電池需求的持續(xù)增長,寧德時代使用基于英特爾架構(gòu)的產(chǎn)品技術(shù),成功構(gòu)建了一套橫跨“云-邊-端”,融合CV、DL和 ML 的 AI 電池缺陷檢測方案,實現(xiàn)了生產(chǎn)效率和質(zhì)量控制水平的共同提升。
盡管環(huán)保理念的大行其道正驅(qū)動著清潔能源行業(yè)的高速發(fā)展,但在產(chǎn)能和質(zhì)量控制上面臨的難題,也同時形成了這一行業(yè)的發(fā)展瓶頸。作為全球領(lǐng)先的鋰離子電池研發(fā)制造企業(yè),寧德時代新能源科技股份有限公司 (以下簡稱 “寧德時代”) 正積極吸納和利用以 AI (Artificial Intelligence, 人工智能) 為代表的前沿信息技術(shù),對旗下動力電池的生產(chǎn)進(jìn)行持續(xù)優(yōu)化。利用 AI 技術(shù)實現(xiàn)電池產(chǎn)品的缺陷檢測,以提升其生產(chǎn)效率和質(zhì)量控制水平,就是其中的一個重要突破點。
結(jié)合全球市場的需求狀況,寧德時代為全新的、基于 AI 的動力電池缺陷檢測方案制訂了具體的目標(biāo),包括在圖像處理速度上要達(dá)到單工序 400FPS (Frames Per Second,每秒傳輸幀數(shù)) 以上,以及在檢測精度上須達(dá)到零漏檢。
更快、更好地實現(xiàn)上述目標(biāo),寧德時代與英特爾開展了一系列深層次技術(shù)合作,其重心就是導(dǎo)入集成 AI 加速能力的英特爾 至強(qiáng) 可擴(kuò)展平臺,其中包括可在 CPU 架構(gòu)上提供出色 AI 推理能力的第二代英特爾 至強(qiáng) 可擴(kuò)展處理器,以及能充分釋放其 AI 算力潛能的 OpenVINO 工具套件和面向英特爾 架構(gòu)優(yōu)化的 PyTorch 等多種配套軟件工具。基于這些英特爾 架構(gòu)產(chǎn)品技術(shù)的助力,寧德時代成功構(gòu)建了一套橫跨 “云-邊-端”,融合計算機(jī)視覺 (Computer Vision,CV) 、深度學(xué)習(xí) (Deep Learning,DL) 和機(jī)器學(xué)習(xí) (Machine Learning, ML) 技術(shù)的 AI 電池缺陷檢測方案。該方案目前已通過測試驗證,達(dá)到了預(yù)期的效能,并成為寧德時代向其他產(chǎn)線推廣 AI 方法的標(biāo)桿。
?
寧德時代全新 AI 動力電池缺陷
檢測方案實現(xiàn)的應(yīng)用優(yōu)勢
??與寧德時代傳統(tǒng)的電池缺陷檢測方法相比,基于 AI 技術(shù)的新方案有更好的速度與更高的精度,達(dá)到了預(yù)先設(shè)定的目標(biāo)——零漏檢及單工序 400FPS 以上的圖像處理速度;
??面向英特爾 架構(gòu)優(yōu)化的 PyTorch,借助內(nèi)置的英特爾 MKL-DNN,提高了深度學(xué)習(xí)框架的性能,再 OpenVINO 工具套件搭配,可助 CPU 輸出更優(yōu)的推理性能;
??新方案對計算機(jī)視覺、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)技術(shù)的融合,可靈活應(yīng)對不同檢測場景的需求,有針對性地選用合適的模型進(jìn)行訓(xùn)練,達(dá)到更好的訓(xùn)練準(zhǔn)確率與檢出率。
當(dāng)今世界,綠色發(fā)展已成為推進(jìn)生態(tài)文明建設(shè)的重要理念。作為這一理念的重要響應(yīng)者和實踐者,寧德時代旗下動力電池的銷量已在全球范圍內(nèi)遙遙領(lǐng)先,并呈現(xiàn)出供不應(yīng)求的態(tài)勢。面對全球市場需求的持續(xù)增長,寧德時代也在不斷調(diào)控和優(yōu)化動力電池生產(chǎn)的各個環(huán)節(jié),以大幅度提升產(chǎn)量。
當(dāng)然,產(chǎn)量的提升,必須要以堅持產(chǎn)品質(zhì)量為前提。動力電池的基本單元是電芯,每一個完備電芯的生產(chǎn)都必須經(jīng)過極其嚴(yán)格的缺陷檢測,才能保證最終產(chǎn)品的可靠與安全。而缺陷檢測是一項高度精細(xì),且較為耗時的工程,尤其是傳統(tǒng)的人工缺陷檢測方式,不僅速度慢,而且準(zhǔn)確度較差,成為了制約產(chǎn)量提升的瓶頸。
針對這一瓶頸,寧德時代此前拿出的解決方案就是采用傳統(tǒng)數(shù)字圖像處理技術(shù)來替代人工,用于識別產(chǎn)品缺陷,以提升檢測速率與精度。
由于這種檢測模式泛化能力差,需要根據(jù)每個機(jī)臺進(jìn)行參數(shù)適配且與分工廠及總部脫節(jié),缺乏整體部署管控能力,處理能力不能與持續(xù)增長的市場需求相匹配,寧德時代最終決定導(dǎo)入一個更適合自身業(yè)務(wù)發(fā)展需求的 AI 動力電池缺陷檢測解決方案,它需要滿足總部逐層管控的要求,且要具備更高效的實時缺陷檢測能力,即在圖像處理速度上實現(xiàn)單工序 400FPS 以上的目標(biāo),以及在檢測精度上達(dá)到零漏檢的目標(biāo)。
?
至強(qiáng) 可擴(kuò)展平臺集成 AI 加速
助力新方案構(gòu)建
為實現(xiàn)新方案的快速落地,寧德時代選擇與英特爾開展合作,導(dǎo)入其領(lǐng)先的軟硬件產(chǎn)品,特別是集成 AI 加速能力的至強(qiáng) 可擴(kuò)展平臺,來構(gòu)建工業(yè)視覺平臺系統(tǒng),該系統(tǒng)正是全新 AI 缺陷檢測解決方案的核心系統(tǒng)。
為實現(xiàn)總體管控的目標(biāo),該系統(tǒng)基于 “云-邊-端” 的架構(gòu)進(jìn)行搭建和部署。如圖二所示,這個架構(gòu)中的 “云” 設(shè)立在寧德時代的總部,掌握總體管控的功能,還可根據(jù)實際生產(chǎn)需要,選用合適的模型進(jìn)行集中訓(xùn)練,再將訓(xùn)練好的模型發(fā)布給 “邊緣” 和 “端” 進(jìn)行就近推理,并接收其返回的推理結(jié)果進(jìn)行存儲;“邊緣” 設(shè)立在分工廠,主要用于重級模型的推理;“端” 則設(shè)立在工廠內(nèi)每條生產(chǎn)線上,進(jìn)行前端的數(shù)據(jù)采集、預(yù)處理以及簡單的推理工作,也在 “云” 和 “邊緣” 的管控下,對生產(chǎn)線進(jìn)行實時質(zhì)量管理。
工業(yè)視覺平臺系統(tǒng)整個 “云-邊-端” 的系統(tǒng)架構(gòu)以集群形式來搭建,不僅便于統(tǒng)一管控,還可以通過分布式部署來減緩處理壓力,但這同時也會帶來分布式推理經(jīng)常遭遇的銜接不暢問題。寧德時代選用了統(tǒng)一大數(shù)據(jù)分析及 AI 平臺來應(yīng)對這一難題,其包含輕量級、分布式、實時的集群服務(wù)解決方案 (Cluster Serving),提供了 pub/sub (發(fā)布/訂閱) API,可透明擴(kuò)展至大型集群部署并能按需擴(kuò)展規(guī)模,且支持TensorFlow、PyTorch、Caffe 和 OpenVINO 工具套件等多種主流的深度學(xué)習(xí)框架和模型,并可將這些組件無縫地集成到整個數(shù)據(jù)分析管道中,簡化分布式推理的 “拼接” 流程。
同時寧德時代選用了面向英特爾 架構(gòu)優(yōu)化的 PyTorch 深度學(xué)習(xí)框架進(jìn)行 AI 處理。該框架擁有原生版 PyTorch 簡潔、靈活、易用的特點,內(nèi)置強(qiáng)大的視覺工具包 torchvision,包含了目前流行的數(shù)據(jù)集、模型結(jié)構(gòu)和常用的圖片轉(zhuǎn)換工具,可輕松應(yīng)對各種圖像檢測場景。同時,它還集成了英特爾 MKL-DNN 及高度矢量化和線程化的構(gòu)建模塊,能夠搭配英特爾 架構(gòu)處理器達(dá)到更優(yōu)的推理性能。
雖然選用了輕巧快速的 PyTorch 框架,但由于實際場景的高實時性要求,整個方案在處理速度上依舊面臨嚴(yán)峻的挑戰(zhàn)。寧德時代秉持精益求精的原則,又選用了英特爾開源的 OpenVINO 工具套件,來進(jìn)一步加速 AI 推理性能。OpenVINO 工具套件包含有模型優(yōu)化器 (Model Optimizer) 和推理引擎 (Inference Engine) 兩個核心組件,模型優(yōu)化器可以將 PyTorch 框架轉(zhuǎn)換為 ONNX 格式,再生成便于推理引擎接收的 IR 文件,結(jié)合其內(nèi)置的 OpenCV 圖像處理庫優(yōu)化版指令集,可充分利用英特爾 架構(gòu)處理器提供的硬件加速能力,進(jìn)一步提升推理性能。
正所謂好馬配好鞍,先進(jìn)的 AI 軟件優(yōu)化技術(shù)及工具,也需要搭配一流的硬件基礎(chǔ)設(shè)施才能發(fā)揮出最大價值,有鑒于此,寧德時代在英特爾的支持下,對鎮(zhèn)守和支持 “云-邊-端” 架構(gòu)的計算平臺進(jìn)行了精心的挑選:在 “端” 處,寧德時代采用了英特爾 酷睿 i5/i7 系列處理器,借助它們整合圖形處理器的優(yōu)勢,以及低功耗、低時延的處理性能來支撐圖像預(yù)處理與簡單的推理運算任務(wù);在 “邊緣” 推理模塊及 “云” 中心的訓(xùn)練模塊,則導(dǎo)入了集成 24 內(nèi)核與 48 線程,具備 35.75MB 高速末級緩存并支持 2,933MHz 內(nèi)存速度的第二代英特爾 至強(qiáng) 可擴(kuò)展處理器,來為更復(fù)雜的訓(xùn)練和推理提供更強(qiáng)算力支持。與第二代英特爾 至強(qiáng) 可擴(kuò)展處理器搭檔的,還有英特爾 固態(tài)盤 D3-S4610 系列,它擁有出色的容量配置以及高達(dá) 560MB/s 的讀取速度及 510MB/s 的寫入速度,可為總部的統(tǒng)一數(shù)據(jù)管理提供可靠的支撐1。
如此一套完整的、橫跨 “云-邊-端” 的 AI 軟硬件架構(gòu)選型和匹配完成后,寧德時代 AI 缺陷檢測解決方案的工業(yè)視覺平臺系統(tǒng)也基本成形,其中由第二代英特爾 至強(qiáng) 可擴(kuò)展處理器、OpenVINO 工具套件、面向英特爾 架構(gòu)優(yōu)化的 PyTorch 等關(guān)鍵軟硬件組合而成的集成 AI 加速能力的至強(qiáng) 可擴(kuò)展平臺,更是蓄勢待發(fā)。
?
英特爾團(tuán)隊全方位助力檢測平臺優(yōu)化
如果將構(gòu)建完整解決方案比喻成房屋建設(shè),那么搭建系統(tǒng)架構(gòu)只是完成了地基打造,在其之上,更重要的是利用 AI 技術(shù)來添磚加瓦。英特爾從這一角度出發(fā),結(jié)合動力電池缺陷檢測實際場景,幫助寧德時代在原有計算機(jī)視覺檢測方案的基礎(chǔ)上,新添了深度學(xué)習(xí)及機(jī)器學(xué)習(xí)兩種技術(shù),提出了 “CV+DL+ML” 混合模式的創(chuàng)新型缺陷檢測方案,并在選用模型、訓(xùn)練方法、數(shù)據(jù)標(biāo)注及模型調(diào)優(yōu)等方面提供了全面助力。
熟悉 AI 技術(shù)和應(yīng)用的人都了解這一原則:不同的模型適用于不同的場景,或者說不同場景都需要找到適合自己的模型進(jìn)行訓(xùn)練和推理,才能達(dá)到更優(yōu)效果。對寧德時代的全新 AI 動力電池缺陷檢測方案來說,其場景即為生產(chǎn)過程表面缺陷檢測。
面對占比 80% 以上的表面缺陷分類場景,寧德時代和英特爾共同探討驗證的方向是:以 ResNet50 為基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),引入機(jī)器學(xué)習(xí)中的分類器 (Classifier) 來進(jìn)行分類檢測,以求達(dá)到更優(yōu)效果;同時采用只需要少量支持向量作為樣本數(shù)據(jù)即可進(jìn)行訓(xùn)練的支持向量機(jī) (Support Vector Machine,SVM) 分類器,來解決數(shù)據(jù)不足的問題。
傳統(tǒng)的 SVM 分類器是一種應(yīng)用非常廣泛的、適用于二分類的分類器,依據(jù)支持向量與分類超平面間隔最大化的原則,通過多次訓(xùn)練迭代,尋求最優(yōu)的分類超平面,以實現(xiàn)數(shù)據(jù)分類。針對表面缺陷檢測中的多分類 (multiple-class) 問題,SVM 也有良好的處理方式,它可以將多分類問題分解成多個二分類問題,再構(gòu)造多個分類器逐個分類解決。通過 ResNet50+SVM 的方案,寧德時代有效化解了多種類異常檢測問題。
除了為主要檢測場景選用合適的模型,圖像特征的準(zhǔn)確標(biāo)注以及模型訓(xùn)練的方法選用,也對模型準(zhǔn)確度有著至關(guān)重要的影響。為此,寧德時代在英特爾的支持下,在新方案中使用了強(qiáng)大的標(biāo)注工具——Labelme 來對數(shù)據(jù)集中的圖像進(jìn)行標(biāo)注,并將標(biāo)注后的特征類別及位置信息傳輸?shù)?a href="http://www.zgszdi.cn/tags/神經(jīng)網(wǎng)絡(luò)/" target="_blank">神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。Labelme 工具不僅可以標(biāo)注各種形狀,還可以支持圖像分類、目標(biāo)檢測、場景分割、實例分割、視頻標(biāo)注等功能,全面覆蓋了動力電池缺陷檢測的范圍。更重要的是,該工具支持像素級的細(xì)粒度標(biāo)注,對標(biāo)注效率與準(zhǔn)確度的提升大有裨益。
模型訓(xùn)練的準(zhǔn)確度除了與數(shù)據(jù)標(biāo)注有關(guān)外,更大程度上受數(shù)據(jù)集量級的影響。數(shù)據(jù)集越大,訓(xùn)練越全面,最終的結(jié)果就越精確。但實際生產(chǎn)中很難收集到巨量的數(shù)據(jù)集,而且采用大數(shù)據(jù)集從頭訓(xùn)練需要耗費大量時間及資源。但反過來,如果數(shù)據(jù)集量級太低,訓(xùn)練結(jié)果也容易出現(xiàn)模型過度依賴訓(xùn)練數(shù)據(jù)而引發(fā)的過擬合 (Overfitting) 現(xiàn)象,難以投入實際應(yīng)用。
針對這一矛盾,寧德時代和英特爾選擇了遷移學(xué)習(xí)訓(xùn)練 (Transfer Learning for Training) 方法,如表一所示,根據(jù)已有的預(yù)訓(xùn)練源模型進(jìn)行模型微調(diào) (fine-tuning),將源模型的初始參數(shù)重新配置,直接從最后一層或最后幾層開始重新訓(xùn)練,依據(jù)少量數(shù)據(jù)集作為樣本,并在訓(xùn)練集中加入曾經(jīng)預(yù)測錯誤的圖片,來提升模型在新樣本中對于該種類別的訓(xùn)練準(zhǔn)確度,最終通過反復(fù)調(diào)整,得出的模型在精度上甚至可以與那些采用大數(shù)據(jù)集從頭開始訓(xùn)練的模型相媲美,但比之更為節(jié)省時間以及資源,大大提高了訓(xùn)練效率。
?
展望
通過導(dǎo)入集成 AI 加速能力的英特爾 至強(qiáng) 可擴(kuò)展平臺,并與英特爾開展緊密合作對檢測平臺進(jìn)行持續(xù)優(yōu)化,寧德時代的全新 AI 動力電池缺陷檢測方案已能達(dá)到非常出色的應(yīng)用效果,并已在寧德時代落地應(yīng)用。接下來,寧德時代還將與英特爾進(jìn)一步合作,在動力電池制造及銷售的各個環(huán)節(jié)中繼續(xù)引入更多 AI 技術(shù),致力于繼續(xù)提升產(chǎn)能,嚴(yán)保產(chǎn)品質(zhì)量和提升企業(yè)運行效率。
編輯:黃飛
評論
查看更多