在新型電力系統加速建設的今天,電網信息系統規模從千萬級代碼躍升至十億級,迭代周期不斷壓縮,系統安全穩定運行面臨前所未有的壓力。傳統運維模式如同“事后救火”,代碼缺陷潛伏、風險感知滯后、故障定位緩慢,歷史故障中由代碼缺陷引發的異常占比高達88%,根因定位平均耗時小時級,業務中斷風險如影隨形。
國網浙江電力迎難而上,創新打造信息系統主動式運維體系,自主研發“酷德”(CODE)代碼審核智能體與“洛格”(LOG)日志分析智能體,形成了“一靜一動、一治一防”的“中西醫結合”智能防線:“酷德”如同西醫,在建設期對代碼進行深度“CT掃描”;“洛格”如同中醫,在運行期對系統進行“望聞問切”。二者協同發力,推動運維模式從“事后救火、被動響應”向“事前預警、主動治理”根本性轉變。
系統建設階段,代碼如同“黑盒”,原生缺陷長期潛伏,上線即“帶病運行”。約70%的系統異常由數據庫SQL性能問題引起,82%的網絡安全漏洞由開源組件引入。傳統第三方測試周期長、缺乏實際運行數據,難以在快速迭代中有效把關。
西醫強調預防為主,通過定期體檢、CT影像掃描等手段,在疾病尚未出現癥狀時發現病灶,從而實現“治未病”。“酷德”正是借鑒這一理念,在信息系統建設階段對代碼開展全面“體檢”。它依托光明電力大模型,整合專家運行經驗、SQL評價規則與CVE漏洞庫,結合實際運行環境中的索引、表結構等數據模型,實現對SQL語句、JAVA源碼、開源組件的全自動掃描,同步推送優化方案。
在支撐統一權限系統自主可控改造中,“酷德”對90萬行代碼進行全面審核,精準鎖定103項源碼風險,審核170條SQL語句并治理72項風險,歷時三個月優化整改,核心接口響應時延降低60%。去年8月11日,國網首家實現全量229套系統一次性割接,原本計劃3天的檢修提前至12小時完成。
自2025年3月嵌入檢修發布流程以來,“酷德”累計審核源碼超5000萬行,攔截缺陷SQL語句5177條、代碼缺陷1.4萬余項、三方組件缺陷1505項。自此,代碼審核環節正式嵌入檢修流程,近一年來,因系統檢修導致的異常從2024年的7起直降至0起。SQL審核準確率達100%,噪音率由最初的58%下降至4%以下。“酷德”已先后在國家能源互聯網大會、世界互聯網大會亮相,并推廣至安徽、新疆、寧夏等多家網省公司試用。
系統故障并非瞬時發生,往往有數小時的發展過程。能否借助人工智能手段提前感知風險,爭取寶貴的“搶救”時間?浙江公司給出答案:“洛格”運行分析智能體。
“洛格”打通了監控指標、訪問日志、運行方式、應用運行日志等海量異構數據,整合近三年的缺陷、異常、故障案例作為專家運維知識庫。它借鑒中醫“望聞問切”的理念,實現多源交叉驗證:“望”:接入CPU、內存等監控告警數據;“聞”:分析業務系統訪問日志,識別性能突變;“問”:查詢系統運行方式臺賬,在海量數據中尋找關聯線索;“切”:對應用日志深度分析,定位問題根因。由此,“洛格”形成兩大核心能力:一是識別性能劣化趨勢,提前預警潛在運行風險;二是針對運行異常快速分析定位根因,并給出處置建議。
今年1月30日16:55,正值月末月初營銷算費業務高峰,“洛格”提前監測到營銷網上國網業務異常請求(錯誤率和慢請求)呈上升趨勢,而此時用戶尚未反饋任何異常,系統也未觸發明顯故障告警。僅用3分鐘到16:58,“洛格”便通過智能關聯分析,快速判斷異常原因為數據庫內存硬件隱患,運維負責人立即組織檢修更換內存條,在故障爆發前消除了潛在風險。
自2026年1月投入使用以來,“洛格”已累計預警系統性能劣化趨勢13次,其中3次可能進一步導致系統異常或故障的發生。通過異常根因智能分析,運維人員快速定位問題并提前消缺,根因定位平均耗時由小時級縮短至5分鐘以內,先于用戶感知異常率達100%。
“酷德”與“洛格”,一個在建設期把住代碼質量關口,一個在運行期實時感知健康狀態;一個精準治理“已病”,一個見微知著“治未病”。通過這對“中西醫”的協同發力,國網浙江電力系統故障率同比下降45.5%,根因定位耗時從小時級壓縮至分鐘級,運維效率與系統安全運行保障能力顯著提升。下一步,國網浙江電力將持續深化智能體自學習能力,推動“酷德”審核關口前移至研發階段,擴大“洛格”對全量重要系統的接入,最終實現“事前阻斷、事中自愈、事后進化”的運維新范式,為新型電力系統的安全穩定運行貢獻更多“浙江經驗”。投稿人:詹佳雯、包迅格、楊冬