當(dāng)前位置:首頁(yè) >  IDC >  云計(jì)算 >  正文

云智慧AIOps智能運(yùn)維應(yīng)用實(shí)戰(zhàn)之告警抑制

 2018-10-24 11:20  來(lái)源: 互聯(lián)網(wǎng)   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

自2016年Gartner提出AIOps智能運(yùn)維以來(lái),諸多中國(guó)云計(jì)算、大數(shù)據(jù)和運(yùn)維管理廠商都推出了AIOps解決方案,然而這些實(shí)踐多是針對(duì)特定IT環(huán)境和應(yīng)用場(chǎng)景進(jìn)行智能化處理,放到其他行業(yè)或企業(yè)中就很難適用,這也限制了企業(yè)用戶對(duì)AIOps的認(rèn)知和嘗試。

云智慧作為國(guó)內(nèi)最早開(kāi)始探索AIOps智能運(yùn)維的獨(dú)立解決方案提供商,在過(guò)去兩年里陸續(xù)為數(shù)十家不同行業(yè)、不同應(yīng)用場(chǎng)景的大型企業(yè)成功實(shí)施了智能運(yùn)維,積累了豐富的智能運(yùn)維應(yīng)用場(chǎng)景和解決方案,并率先實(shí)現(xiàn)了AIOps智能運(yùn)維的產(chǎn)品化、場(chǎng)景化和實(shí)用化。接下來(lái)這段時(shí)間,我們會(huì)為大家介紹云智慧AIOps智能運(yùn)維平臺(tái)的智能告警、根因分析、智能預(yù)測(cè)等產(chǎn)品模塊,及其在不同用戶場(chǎng)景的應(yīng)用價(jià)值,希望為大家正確理解和選擇AIOps提供參考。

企業(yè)IT系統(tǒng)運(yùn)行過(guò)程中會(huì)產(chǎn)生海量日志數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù),這部分?jǐn)?shù)據(jù)既滿足大數(shù)據(jù)的屬性,又隱藏著巨大的業(yè)務(wù)價(jià)值,因此企業(yè)進(jìn)行AIOps實(shí)踐多是從智能告警入手。今天我們就來(lái)介紹智能告警的第一個(gè)環(huán)節(jié)——告警抑制。

告警抑制典型應(yīng)用場(chǎng)景

中大型企業(yè)的IT應(yīng)用系統(tǒng)龐大而復(fù)雜,設(shè)備數(shù)量動(dòng)輒成千上萬(wàn),任何一個(gè)小小的IT問(wèn)題都有可能引發(fā)“告警風(fēng)暴”。所謂告警風(fēng)暴是指在短時(shí)間內(nèi)系統(tǒng)產(chǎn)生大量告警消息,這些消息有的是由某種共同因素引發(fā),互相之間存在一定關(guān)聯(lián),有的則沒(méi)有任何關(guān)系。

以云智慧服務(wù)的某大型企業(yè)為例,某次告警風(fēng)暴產(chǎn)生時(shí),平均每分鐘800+條告警消息,運(yùn)維人員每天接收各類(lèi)告警消息多達(dá)2萬(wàn)條,導(dǎo)致運(yùn)維人員疲于應(yīng)付大量的告警消息,需要耗費(fèi)更多時(shí)間排查和處理問(wèn)題,大大降低了運(yùn)維效率,而且由于無(wú)法第一時(shí)間發(fā)現(xiàn)根源問(wèn)題,延誤了故障處理時(shí)間,往往會(huì)給業(yè)務(wù)運(yùn)行帶來(lái)潛在風(fēng)險(xiǎn)。

壓縮比高達(dá)90% 告警抑制功能特點(diǎn)

常規(guī)的運(yùn)維監(jiān)控產(chǎn)品都是根據(jù)固定閾值觸發(fā)告警,這種監(jiān)控方式會(huì)頻繁遇到告警報(bào)錯(cuò)、漏報(bào)、告警風(fēng)暴等問(wèn)題,嚴(yán)重干擾運(yùn)維人員的工作效率。云智慧AIOps智能運(yùn)維平臺(tái)的告警抑制產(chǎn)品針對(duì)海量的、持續(xù)的冗余告警消息,通過(guò)智能算法結(jié)合固定規(guī)則的方式對(duì)告警消息進(jìn)行告警壓縮和告警合并,在保證核心告警內(nèi)容(即不壓縮核心告警內(nèi)容)的前提下抑制告警消息數(shù)量,為運(yùn)維人員提供有效的告警信息。

云智慧智能運(yùn)維平臺(tái)告警抑制流程

我們把相同告警源產(chǎn)生的重復(fù)消息進(jìn)行壓縮的過(guò)程叫告警壓縮,告警壓縮是實(shí)現(xiàn)告警抑制的前提和基礎(chǔ),通過(guò)告警壓縮可以減少70~80%的重復(fù)告警,并在此環(huán)節(jié)把告警消息(Message)生成為警報(bào)(Alert)。接下來(lái),將不同告警源產(chǎn)生的警報(bào)按照規(guī)則、算法進(jìn)一步合并的過(guò)程叫告警合并或告警收斂。通過(guò)告警合并,告警消息的壓縮比可提升到80%~90%。

下面用幾個(gè)實(shí)例來(lái)解釋一下云智慧智能運(yùn)維平臺(tái)的告警抑制流程。

例1:告警壓縮

用戶利用 Zabbix 對(duì)服務(wù)器BJ_Pay_ngix_1進(jìn)行監(jiān)控,監(jiān)控了 CPU Load,監(jiān)控頻率為10s。在13點(diǎn)24分開(kāi)始觸發(fā) CPU Load 告警,并且持續(xù)了8分鐘未恢復(fù),整個(gè)期間產(chǎn)生了50條重復(fù)告警消息,通過(guò)云智慧智能運(yùn)維平臺(tái)的告警抑制,將50條消息壓縮為1條警報(bào)(Alert),并可以通過(guò)時(shí)間線功能,查看整個(gè)生命周期內(nèi)的告警分布情況。

例2:告警合并(告警收斂)

主機(jī)BJ_Web服務(wù)1產(chǎn)生 CPU、內(nèi)存使用率的告警,同時(shí)同一個(gè)集群的 BJ_Web 服務(wù)2也產(chǎn)生了 CPU和內(nèi)存使用率的告警,通過(guò)告警壓縮生成4個(gè)警報(bào)(Alert),通過(guò)告警合并將集群內(nèi)所有警報(bào)合并為一個(gè)告警事件(Event)。當(dāng)然,也可以基于業(yè)務(wù)線對(duì)業(yè)務(wù)告警、APM 告警等警報(bào)進(jìn)行合并,然后通過(guò)時(shí)間線功能,查看多個(gè)警報(bào)之間的時(shí)間順序,來(lái)初步判斷告警的根因情況。

以上是云智慧AIOps智能運(yùn)維平臺(tái)告警抑制功能的基本原理,此產(chǎn)品不但能接入云智慧自有的監(jiān)控寶、透視寶等告警源,還可以通過(guò)REST API 、Agent、URL 回調(diào)等方式對(duì)主流監(jiān)控Zabbix、Nagios的告警數(shù)據(jù)進(jìn)行接?,或根據(jù)客戶需求對(duì)特定告警源進(jìn)行定制化接入。此外,用戶可配置各類(lèi)抑制規(guī)則,設(shè)置 事件通知的分派策略,獲得更高壓縮比、更快速的智能告警。

如今,云智慧AIOps智能運(yùn)維平臺(tái)的告警抑制產(chǎn)品已經(jīng)在金融、航空、地產(chǎn)、制造、政企等多個(gè)行業(yè)通過(guò)線上環(huán)境的生產(chǎn)驗(yàn)證。由于客戶類(lèi)型和業(yè)務(wù)系統(tǒng)的差異,實(shí)際壓縮率可高達(dá)95%,并做到了核心內(nèi)容零損耗。

告警抑制典型案例

某大型企業(yè)集團(tuán)擁有在線商城、辦公系統(tǒng)、財(cái)務(wù)系統(tǒng)等核心系統(tǒng),涉及到多地多個(gè)機(jī)房和幾十套應(yīng)用子系統(tǒng),頻繁的告警消息對(duì)運(yùn)維工作造成了極大干擾。為避免此類(lèi)干擾,該集團(tuán)的運(yùn)維人員只能臨時(shí)關(guān)閉若干系統(tǒng)的監(jiān)控功能,但這種方式導(dǎo)致了業(yè)務(wù)系統(tǒng)與基礎(chǔ)環(huán)境的監(jiān)控缺失,無(wú)法有效實(shí)時(shí)掌控整個(gè)運(yùn)維環(huán)境的運(yùn)行。

云智慧工程師根據(jù)對(duì)歷史故障的分析,把該企業(yè)的故障分為幾類(lèi):

•閃斷類(lèi):故障發(fā)生后迅速自愈

•重復(fù)類(lèi):?jiǎn)蝹€(gè)對(duì)象的一個(gè)或多個(gè)指標(biāo)持續(xù)告警

•范圍性故障:某個(gè)區(qū)域或某個(gè)集群出現(xiàn)范圍性故障,范圍內(nèi)的多個(gè)對(duì)象短期內(nèi)同時(shí)出現(xiàn)告警

當(dāng)以上幾類(lèi)告警在發(fā)生時(shí),運(yùn)維人員需要第一時(shí)間區(qū)分故障類(lèi)型,才能快速定位問(wèn)題。通過(guò)部署云智慧智能運(yùn)維平臺(tái),利用REST API、Agnet 采集等方式對(duì)接各個(gè)監(jiān)控系統(tǒng),將告警消息進(jìn)行統(tǒng)一匯聚和整合,然后進(jìn)行有效的告警抑制處理,大幅降低告警事件的數(shù)量和告警發(fā)送的頻率,同時(shí)提高了告警通知的精度。

某次故障發(fā)生后,某地?cái)?shù)據(jù)中心短期內(nèi)出現(xiàn)了上千條的告警消息,經(jīng)過(guò)壓縮合并后抑制成了幾十條警報(bào)和不到10個(gè)事件,壓縮率達(dá)到了95%以上。部署云智慧智能運(yùn)維平臺(tái)三個(gè)月以來(lái),該企業(yè)運(yùn)維人員每天接收告警數(shù)量從人均182條降低到了25條,同時(shí)整個(gè)運(yùn)維團(tuán)隊(duì)的平均接手時(shí)間(MTTA)和平均解決時(shí)間(MTTR)都大幅縮短。

附注:Gartner于2018年7月13日發(fā)布的《Hype Cycle for ICT in China, 2018》中,云智慧成為AIOps領(lǐng)域的Sample Vendors。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
云計(jì)算

相關(guān)文章

  • 選擇云服務(wù)需要考慮哪些因素?

    作為云計(jì)算技術(shù)落地的重要基礎(chǔ)設(shè)施成果,云服務(wù)器近年來(lái)獲得的飛速發(fā)展有目共睹。云服務(wù)器需求量的激增引發(fā)行業(yè)競(jìng)爭(zhēng)的加劇,甚至很多服務(wù)商將VPS更名為云服務(wù)器混淆視聽(tīng),濫竽充數(shù)。為保證我們互聯(lián)網(wǎng)服務(wù)的正常創(chuàng)建和運(yùn)行,優(yōu)質(zhì)的云服務(wù)器是基礎(chǔ)保障,那么選擇云服務(wù)器要考慮哪些因素呢?一、你的網(wǎng)站目標(biāo)群體你的網(wǎng)站目

  • 2022年中國(guó)云市場(chǎng)份額:阿里云騰訊云下降

    4月23日,IDC發(fā)布《中國(guó)公有云服務(wù)市場(chǎng)(2022下半年)跟蹤》,占據(jù)前四的分別為阿里云(40.6%)、華為云(11.0%)、騰訊云(11.0%)、中國(guó)電信(8.7%)。

  • 什么是云計(jì)算

    云計(jì)算是一種基于互聯(lián)網(wǎng)的計(jì)算模式,它允許用戶通過(guò)互聯(lián)網(wǎng)訪問(wèn)可擴(kuò)展的計(jì)算資源,而無(wú)需直接控制這些資源。云計(jì)算的出現(xiàn)改變了傳統(tǒng)計(jì)算模式的局面,為用戶提供了更加靈活、高效和可靠的計(jì)算環(huán)境。云計(jì)算的基本原理是將計(jì)算資源集中在一個(gè)中央服務(wù)器上,并通過(guò)互聯(lián)網(wǎng)向用戶提供計(jì)算服務(wù)。這樣,用戶就可以通過(guò)互聯(lián)網(wǎng)訪問(wèn)計(jì)算

  • 哪些行業(yè)適合選擇云服務(wù)器

    云服務(wù)器已經(jīng)成為數(shù)據(jù)存儲(chǔ)和備份的一種主流方式,對(duì)于許多需要存儲(chǔ)、保護(hù)和管理數(shù)據(jù)的企業(yè)和行業(yè)來(lái)說(shuō),它是個(gè)不錯(cuò)的選擇。無(wú)論您是任何行業(yè)的企業(yè),都可以通過(guò)云服務(wù)器實(shí)現(xiàn)在數(shù)據(jù)存儲(chǔ)和災(zāi)難恢復(fù)方面的優(yōu)化和成本的降低。

  • 租用云服務(wù)器的好處

    云服務(wù)器不僅可以提供可靠、高效和安全的解決方案,同時(shí)還可以節(jié)約成本、節(jié)省時(shí)間和精力,并且提供更好的靈活性來(lái)幫助用戶適應(yīng)其業(yè)務(wù)需求的變化。

熱門(mén)排行

信息推薦