近日,我院計算機技術2020級碩士研究生喻思宇同學為第一作者的學術論文“Log Parsing with Generaliztion Ability under New Log Types”被中國計算機學會(CCF)推薦A類國際學術會議 The ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering(ESEC/FSE 2023)錄用,論文通訊作者為指導老師陳甯江教授。
将半結構化日志轉換為結構化日志的日志解析是智能日志分析的關鍵第一步。然而,由于新日志中會出現新的日志類型,現有的解析器在實際應用中仍不能令人滿意,此外根據現有日志設置的解析器參數很難泛化支持新的日志類型,對此,該論文提出一種可變生成模仿策略來設計具有泛化能力的新的日志解析方法Log3T。Log3T分為離線訓練和在線解析兩部分。在離線訓練階段,Log3T将日志解析制定為二分類任務,利用标記的曆史日志來訓練Transformer編碼器;在在線訓練階段,根據模型分配給單詞的概率,從新出現的日志中提取最有可能的常數單詞,在此基礎上将新日志劃分為不同的日志組,進而生成具有代表性的日志模闆。為了增強模型泛化到新的日志類型的能力,Log3T進一步開發了一個包含測試時間訓練的在線解析版本。在16個基準數據集上的實驗結果表明,Log3T的解析準确率超過了當前的解析器,并能自動适應新日志類型。Log3T日志解析器軟件在GITHUB開源(https://github.com/gaiusyu)。
圖 Log3T 的工作原理
ESEC/FSE是軟件工程領域頂尖學術會議,是CCF-A類國際會議、Core Conference Ranking A*類旗艦會議。該會議每年彙集了來自學術界和工業界的研究人員和從業人員,重點關注軟件工程各個領域的實際應用。2022年共接收99篇論文,接收率22%。