本文對(duì)現(xiàn)有的基于經(jīng)典機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法的日志異常檢測(cè)方法進(jìn)行了實(shí)證研究,并提出了一種自動(dòng)化日志異常檢測(cè)評(píng)估框架LightAD。
1. 日志異常檢測(cè)介紹
日志是AIOps領(lǐng)域需要處理的常見數(shù)據(jù),是程序運(yùn)行過(guò)程中由代碼打印出的一些非結(jié)構(gòu)化的文本信息,日志通常由時(shí)間戳和文本信息組成。日志實(shí)時(shí)記錄了系統(tǒng)的運(yùn)行狀態(tài),包括正常運(yùn)行狀態(tài)和故障發(fā)生時(shí)的狀態(tài)。因此通過(guò)收集和分析日志,可以快速檢測(cè)和定位出系統(tǒng)中存在的異常。
本文研究了深度學(xué)習(xí)方法在日志異常檢測(cè)中與更簡(jiǎn)單技術(shù)相比的優(yōu)越性,在五個(gè)公共的日志異常檢測(cè)數(shù)據(jù)集上對(duì)輕量級(jí)傳統(tǒng)機(jī)器學(xué)習(xí)方法(如KNN、SLFN)和深度學(xué)習(xí)方法(如CNN、NeuralLog)進(jìn)行了全面的評(píng)估。
本文的研究結(jié)果表明,通過(guò)合適的數(shù)據(jù)處理方式,輕量級(jí)機(jī)器學(xué)習(xí)方法能夠在時(shí)間效率和準(zhǔn)確性方面都優(yōu)于深度學(xué)習(xí)方法。為了評(píng)估深度學(xué)習(xí)方法的必要性,本文提出了一種自動(dòng)化的日志異常檢測(cè)模型評(píng)估框架LightAD。LightAD是一種基于貝葉斯優(yōu)化器的優(yōu)化訓(xùn)練時(shí)間、推斷時(shí)間和性能得分的評(píng)估框架。通過(guò)自動(dòng)化超參數(shù)調(diào)優(yōu),LightAD可以實(shí)現(xiàn)在日志異常檢測(cè)模型之間進(jìn)行公正的比較,使運(yùn)維工程師能夠針對(duì)不同的在線異常檢測(cè)目標(biāo)來(lái)選擇合適的異常檢測(cè)模型。
2. 對(duì)現(xiàn)有方法的全面評(píng)估
深度學(xué)習(xí)方法除了本身?yè)碛懈嗟膮?shù)量外,其使用的數(shù)據(jù)處理方式通常也比較耗時(shí)。例如,CNN方法需要使用日志解析工具對(duì)日志進(jìn)行解析,NeuralLog需要用深度語(yǔ)言模型BERT來(lái)對(duì)日志進(jìn)行處理。本文對(duì)輕量級(jí)傳統(tǒng)機(jī)器學(xué)習(xí)方法采用了更高效的日志處理方式。
具體而言,本文在處理以日志塊來(lái)聚合的數(shù)據(jù)集(如HDFS)時(shí),從每個(gè)文本日志消息中提取標(biāo)記,以空格分隔,并刪除包含數(shù)字的標(biāo)記。本文使用每個(gè)塊的ID將日志消息分組成日志序列,并用事件頻率對(duì)其進(jìn)行編碼。整個(gè)預(yù)處理工作流程如下圖所示。
3. 全新的日志異常檢測(cè)評(píng)估框架:LightAD
為全面綜合評(píng)估日志異常檢測(cè)算法,本文提出了基于貝葉斯優(yōu)化起的自動(dòng)化算法優(yōu)化和評(píng)估框架LightAD,LightAD結(jié)構(gòu)如下圖所示。本文首先準(zhǔn)備了一組簡(jiǎn)單的基準(zhǔn)模型及其初始的超參數(shù)空間,對(duì)于每個(gè)模型,本文會(huì)自動(dòng)化的優(yōu)化模型的超參數(shù)。通過(guò)綜合考慮三個(gè)維度的模型收益打分:
(1)準(zhǔn)確性
(2)每個(gè)日志序列的訓(xùn)練時(shí)間
(3)每個(gè)日志序列的推斷時(shí)間
最終抉擇出模型收益分?jǐn)?shù)最高的異常檢測(cè)算法。
模型收益的多目標(biāo)優(yōu)化公式如下:
下圖是在去除重復(fù)數(shù)據(jù)的HDFS數(shù)據(jù)集上使用LightAD進(jìn)行異常檢測(cè)方法優(yōu)化和評(píng)估的結(jié)果,最高模型收益的分?jǐn)?shù)由黑色加粗標(biāo)識(shí)。從圖中可以看出,LightAD挑選出的模型都是輕量級(jí)的機(jī)器學(xué)習(xí)方法。
4.總結(jié)
本文來(lái)自華為云PaaS技術(shù)創(chuàng)新Lab和香港中文大學(xué)(深圳)賀品嘉助理教授團(tuán)隊(duì)合作項(xiàng)目成果產(chǎn)出,相關(guān)研究成果已被軟件工程領(lǐng)域頂會(huì)ICSE 2024(CCF A類)正式錄用,文章詳細(xì)內(nèi)容即將公開,敬請(qǐng)關(guān)注。
文章來(lái)自 PaaS技術(shù)創(chuàng)新Lab,PaaS技術(shù)創(chuàng)新Lab隸屬于華為云,致力于綜合利用軟件分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等技術(shù),為軟件研發(fā)人員提供下一代智能研發(fā)工具服務(wù)的核心引擎和智慧大腦。我們將聚焦軟件工程領(lǐng)域硬核能力,不斷構(gòu)筑研發(fā)利器,持續(xù)交付高價(jià)值商業(yè)特性!加入我們,一起開創(chuàng)研發(fā)新“境界”!
詳情歡迎聯(lián)系:
mayuchi1@huawei.com;bianpan@huawei.com
原文標(biāo)題:【AIOps】一種全新的日志異常檢測(cè)評(píng)估框架:LightAD,相關(guān)成果已被軟工頂會(huì)ICSE 2024錄用
文章出處:【微信公眾號(hào):華為DevCloud】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
華為
+關(guān)注
關(guān)注
216文章
34537瀏覽量
253023
原文標(biāo)題:【AIOps】一種全新的日志異常檢測(cè)評(píng)估框架:LightAD,相關(guān)成果已被軟工頂會(huì)ICSE 2024錄用
文章出處:【微信號(hào):華為DevCloud,微信公眾號(hào):華為DevCloud】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論