當人們談論未來的生活時,智慧社區一直是繞不開的話題。2020年5月,中國《2020年國務院政府工作報告》提出,要重點支持“兩新一重” (新型基礎設施建設,新型城鎮化建設,交通、水利等重大工程建設),其中前兩項“新基建”和“新城建”,都會把智慧社區作為一個關注點。
智慧社區包含大量新鮮技術,可以方便人們的生活。除了社區的自動售貨超市,典型的應用還有家里的智能家居系統、樓下的自動停車系統。眾多應用中,以社區安保系統最為關鍵。小到進入社區和住宅樓的門禁系統,大到整個社區的攝像頭網絡,智能系統可以代替保安進行身份驗證、巡邏、危險預警等工作。
美劇《疑犯追蹤》(Person of Interest)就描述了由高級人工智能支持和具有強大功能的安保系統。遍布在城市內的攝像頭網絡負責記錄全方位的信息,包括身份、行為甚至人與人的關系,這些相關的信息由中央大腦進行分析,從而判斷威脅甚至對潛在威脅做出預測。當然,劇中近乎上帝一般的人工智能身上存在相當多科幻色彩,但其描繪的智能安保系統如今正在慢慢變成現實。在智慧社區和智能城市中,智能安保系統是實施安全防范控制的重要技術手段,它結合了人臉識別 (Face Recognition)、行為識別 (Action Recognition)、身份識別 (Person Re-identification) 的人工智能系統。這種智能化系統在不需要人為干預的情況下,系統能自動實現對監控畫面中的異常情況進行檢測、識別,在有異常時能及時作出預警。
與其他識別技術如虹膜識別、指紋識別等相比,以攝像頭為基礎的智能識別系統具有較大優勢。首先,攝像頭可以實現非接觸采集信息,不易引起被監測者的注意和抵觸。第二,指紋等生物特征的采集需要高精度的采集設備和相對嚴苛的采集條件,而攝像頭的采集方式更加快捷便利。第三,攝像頭可以很容易地進行網絡化擴展,從而與大數據等技術相結合,更容易結合多維度信息進行更高精度的識別。
人臉識別技術
基于計算機的人臉識別技術研究發軔于20世紀中期,最早是模式識別 (Pattern Recognition) 的一個分支,后來逐漸發展完善了人臉檢測、人臉配準、人臉屬性識別、人臉驗證和識別等多種算法。現在這些技術已經廣泛應用在日常生活中,包括手機和相機的人臉捕捉功能、上班自動人臉識別打卡,一些新型住宅小區已經加入了具有人臉識別功能的門禁系統。
人臉檢測
人臉識別算法的第一步就是確定當前圖像和視頻中是否有人臉的存在,并且把對應的人臉范圍圈定出來。2001年,Paul Viola與Michael Jones共同發明了著名的Viola-Jones目標檢測方法,這是后來人臉檢測算法的基礎。
Viola-Jones算法包括特征和分類器兩部分。算法利用了人臉的Haar特征,也就是由黑白矩形形成的、可以模擬目標的不同部分之間明暗關系的特征。這些特征可以用來尋找正面人臉上存在的一些明暗對比的區域,比如鼻梁部分比眼睛更亮、嘴巴部分一般會比其他區域更暗等等。這些特征可以匹配圖像中一些候選框,再用這些候選框經過AdaBoost分類器,輸出“是人臉”或“非人臉”的標記。值得指出的是,在Viola-Jones算法中,多個分類器級聯形成一個集成分類器。這樣的好處是逐級減少候選框的數量,提高了算法的計算速度。
后續的一些研究也立足于特征和分類器兩個方面。在特征方面,現在的安保系統傾向于使用一些相對復雜的特征替代Haar特征,一方面可以提高系統的檢測率,另一方面可以更好地解決非正面臉部帶來的檢測失敗問題。在分類器方面,非極大值抑制 (NMS,Non-Maximum Suppression) 方法可以組合位置和大小相近的候選框,從而大規模地減少候選框的數量;深度神經網絡可以利用顯卡來進行大部分運算,極大提升運算速度。
人臉配準
由于標準的人臉可以讓人臉識別等算法的結果更加穩定,因此一個關鍵步驟就是將不同角度、不同分辨率的人臉經過算法匹配到標準的位置,這就是人臉配準 (Facial Alignment)。從這個角度上說,所有人的臉都可以看做是標準人臉經過仿射變換 (縮放、旋轉、平移) 之后的結果,而人臉配準算法的目標就是根據人臉的特征點還原這個變換過程。
計算機科學家首先定義了人臉的68個特征點,可以勾勒出人臉的主要特征。一個經典的算法思路就是讓計算機學習標準的人臉圖像在這些特征點上是如何一步一步變換成真實圖像的。它通過訓練級聯的回歸器,讓每一個回歸器都學習一部分變換的信息,從而在真實人臉圖像上找到了標準人臉圖像的映射。
人臉屬性識別
人臉的屬性包括性別、種族、年齡、表情等,對于這些屬性的精準區分可以更好地判斷當前人物的喜好和心理狀態等。如果完成了人臉的檢測和配準,人臉屬性識別相對簡單,其實質就是一個在大數據幫助下的圖片分類和回歸問題。
2015年,微軟開發了一款預測年齡的應用 (how-old.net),根據用戶上傳的圖片給出圖中人物年齡的預測。在這個系統中,人臉先被圈出,然后提取出的特征向量會經過分類器給出性別的標簽,再經過年齡的回歸分析器得到相應的年齡數字。如果利用深度神經網絡,特征提取和分類回歸就可以集成在一個算法中,同時實現多個屬性的實時預測。類似地,對人臉表情也可以實現相應的分類和回歸,這可以用在一些智能家居和安保系統的控制系統中,遇到危險時,可能僅僅眨眨眼就可以把報警信息傳遞出去。
人臉驗證與識別
基于上述算法,就可以判斷兩張圖片是否是同一個人,這就是人臉驗證。推而廣之,對于輸入的任意一張人臉圖像,計算機可以從數據庫中匹配到相關人員,并輸出其身份信息和屬性信息,這個過程就是人臉識別。
由于要進行輸入圖片和數據庫內大量圖片的對比,算法的速度對用戶的體驗至關重要。一個解決的方案就是從圖片中提取特征。一個方法是主成分分析 (Principal Component Analysis),也就是從檢測出來的人臉選框中獲得其特異性特征,然后通過相關性分析獲得最一致的人員信息。另一個重要的特征是SIFT (Scale-Invariant Feature Transform,即尺度不變特征變換),即使圖像有旋轉、尺度變化甚至分辨率的變化或者使用不同的相機,都可以從圖像中匹配特征點,準確率很高。
人臉在不同光照、不同媒介中的樣子是不同的,直接的特征提取方法可能無法滿足所有人臉識別場景的需求,因此就需要把人臉的特征跟光照等信息完成去耦合。經典算法LBP (Local Binary Patterns,即局部二值模式) 所做的就是去掉光照信息。在LBP算法中,每一個像素會跟相鄰像素作比較,然后保留整張圖片中像素之間的大小關系,但去掉了其具體的數值。這樣一來面部特征仍然得到保留,但光照或紋理造成的像素值偏移就會被去掉。近幾年發展的去耦合表示法 (Disentangled Representation) 使用了類似的想法,把深度神經網絡提取出來的人臉特征分成形狀 (Shape) 和外觀 (Appearance) 兩部分,可以更好地保留人臉圖像的特征,提升了識別準確率。
行為識別和身份識別技術
除了人臉識別技術之外,對于行為和身份的識別也是智能安保系統的重要組成部分。其中行為識別就是對視頻中的人物行為進行分類,而身份識別是指從攝像頭網絡中發現同一個個體,進而獲得其行動軌跡并判斷其行進目標和可疑與否。把身份識別和行為識別相結合,可以更好地判斷視頻中人物的行動狀態。
行為識別
最早的行為識別只是圖像分類的一個分支,只不過分類的對象從圖像轉變為視頻,分出的類別也從物品、人臉變成了動作。視頻作為智能安保系統的主要存儲內容,可以看做是多個圖像的組合,因此圖像分類的方法 (如深度學習算法等) 可以直接用于行為識別中。但是,由于行為本身具有時序性,相關的時序特征也可以用來提升準確率。光流 (Optical Flow) 就是一個適用于視頻的特征,它標記了連續兩幀圖像之間相應的點的變化軌跡。當把連續多幀的對應點以及其周邊的像素信息編碼成一個特征,就形成了一個視頻軌跡 (Trajectory),多個軌跡的組合就可以很好地表示行為信息。
近年來深度學習算法在行為識別中取得了很大進展。由香港中文大學的計算機科學家提出的TSN (Temporal Segment Network) 算法提高了行為識別的水平。在TSN算法中,原始的視頻和其光流圖像被同時用來訓練深度神經網絡,這使得同一個模型同時編碼了外觀信息和動態信息。另外,同一個視頻被隨機采樣成多種組合,使同一動作的不同速度也都可以被識別。除了以TSN為代表的算法之外,新加坡南洋理工大學還標記了大型的行為識別數據庫NTU RGB+D,其中包含一些醫院和養老院中常見的動作 (比如坐下、躺下、跌倒等)。用這些算法和數據訓練出來的行為識別系統可以很好地進行重點人員、重點地區的監控。
身份識別
身份識別用到的特征可以是全方位的,包括面部特征、肢體特征、姿態特征、動作特征、衣著特征等。由于攝像頭的分辨率限制,面部特征的使用只能作為輔助,而較大的特征如體態、動作、衣著等會作為主要特征,其中衣著特征占有較大比重,這與人眼的識別過程是類似的。因此,身份識別算法的核心在于如何用好多種特征。
深度學習算法依然起著重要作用,因為它可以通過輸入大量數據,讓深度神經網絡自動提取特征并分配不同的權重給不同的特征,并訓練多個分類器從不同維度進行判斷。具體來說,身份識別的算法會綜合考慮幾個目標,包括外觀分類 (衣著、背包、掛飾等)、體態分類 (男女、身高等)、部件分類 (手臂、腿、軀干等),最終的識別結果是多個分類器的加權綜合。近年來,為了同時擴大不同個體的區別和減小同一個體不同場景下的區別,三樣本損失函數 (Triplet loss) 被引入深度學習算法中,對一組三個樣本進行訓練和區分,獲得了不錯的效果。
技術難點與展望
無論是人臉識別還是身份和行為識別,在安保系統中都具有很大的優勢。首先,計算機的參與可以完成人類所無法完成的全方位24小時監督,覆蓋度的增加也就提升了安保系統的安全系數。第二,強大的計算機可以快速處理海量數據,極大提高了發現安全隱患的速度。但是,盡管具有上述功能的智能攝像頭已經開始在一些公共場所和社區內落地,大規模的部署還需要解決一些技術難點。
系統的魯棒性
人臉識別中,臉部會經常被眼鏡、墨鏡、口罩等遮蓋;行為識別和身份識別中,也存在肢體被遮蓋的情況,這些都給算法帶來不小的考驗。雖然一些光照問題可以通過解耦算法部分解決,但是一些特殊需求如黑暗條件、分辨率不同的攝像頭等,仍然會影響算法精度。另外,長相相似的人臉、穿著和動作相似的人物、隨著時間改變而造成人臉和動作特征的變化,都會造成識別的不準確。
大數據和新型硬件
在大數據時代,數據的量級和維度都會顯著提升。理論上,數據量越大就可以讓計算機獲得越全面的學習。但實際情況下,人臉、行為和身份識別的數據集均可以達到上億量級,而只有這些數據被人工標記之后才可以被用作機器學習算法的訓練。因此,僅標記這一個工作就需要大量人力的投入。在數據維度方面,除了人臉、行為和衣著等信息維度,未來的安保系統可能還會結合更多的數據維度,包括更加細化的視覺信息如步態、姿態以及其他生物信息的采集,這就需要計算機從數據中提取關鍵的特征和信息,并綜合分析這些信息得到更復雜的結果。現階段算法還只是基于某一個具體的任務,未來當數據規模和算力達到一定水平之后,還需要新的算法來綜合考慮多個維度的信息并快速反饋給安全管理人員。
為了使結合大數據的智能識別系統得以應用,硬件的升級也必不可少。隨著采集信息的逐步細化,更高清的采集設備會需要大規模部署,而現階段由于清晰度和幀率所限,在監控視頻中進行人臉識別和行為分析還是相對困難的。更智能的視頻采集設備則需要低功耗但高算力的芯片以及云計算技術的支持。攝像頭網絡中的每個節點都應當有初步運算能力,識別結果需要經過云端大腦的整合,進而得到更綜合的分析結果。
數據和算法的安全
安保系統本身的安全性能是一個重要的評價標準。而在互聯網時代,數據的安全性遭受巨大考驗。由于社交媒體的普及,幾乎每個人的人臉數據和身份信息都可以從網上獲得。這些信息一旦與成像技術乃至3D打印技術相結合,人臉識別系統就很可能被攻破。比如,現在一些研究就集中在如何在人臉識別系統中加入真假人臉的識別,正是為了防范這樣的潛在安全威脅。
其他算法也在不斷升級,給現有的識別技術帶來新的挑戰。比如近年來的生成對抗網絡已經可以生成真假難辨的人臉圖像,甚至自動換臉的視頻也已經司空見慣。這些生成的人臉甚至可以通過現有的人臉識別系統。另外,最近的一篇論文指出,如果對身份識別系統加入一個干擾,算法的身份匹配結果與真實結果之間可能南轅北轍,不法分子甚至可以通過干擾算法來逃過攝像頭的追蹤。
總結
由此可見,新算法的提出仍然是實現智慧社區智能安保系統的基礎。除了提高現有算法的魯棒性,對大規模數據的處理能力,還需要逐步引入新型的數據和算法保護機制,來應對新的挑戰和需求。計算機科學家也一直在試圖攻克這些困難。基于稀疏表達的人臉識別系統可以很好地識別不同遮蓋條件下的人臉,從而提高人臉識別算法對特殊環境數據的處理能力。在訓練識別算法的同時,引入生成對抗網絡和遷移學習等學習機制,在部署的時候利用容器技術和聯邦學習,不僅可以讓算法完成識別的任務,還可以讓算法分辨數據來源以及惡意攻擊,從而更好地保護數據和算法。在未來,隨著算法在這些方面的不斷迭代,更先進的自動識別技術會成為智慧社區和智慧城市不可或缺的組成部分。
-
識別技術
+關注
關注
0文章
205瀏覽量
19747 -
智能安保系統
+關注
關注
0文章
5瀏覽量
2363
發布評論請先 登錄
相關推薦
評論