淳中科技:七大標準判別分布式系統的優(yōu)劣(下)
來(lái)源:淳中科技 編輯:swallow 2020-03-23 09:15:15 加入收藏 咨詢(xún)

所在單位: | * |
姓名: | * |
手機: | * |
職位: | |
郵箱: | * |
其他聯(lián)系方式: | |
咨詢(xún)內容: | |
驗證碼: |
|
想必大家已經(jīng)在前期的兩篇文章中了解了判別分布式系統優(yōu)劣的六大標準,那么第七大標準是什么呢?在了解第七大標準之前,我們先來(lái)考慮一個(gè)問(wèn)題:
當指揮中心顯控系統運行異常時(shí),該如何處理?
傳統的處理方式:首先召集各個(gè)運維崗位進(jìn)行自檢,查看各自負責的設備、應用組件、系統是否運行正常。如果沒(méi)有發(fā)現問(wèn)題,則召集設備提供商、系統開(kāi)發(fā)商、系統集成商一起對系統進(jìn)行“會(huì )診”,查找故障原因,整個(gè)流程常常會(huì )超過(guò)一周時(shí)間。所以,傳統運維部門(mén)常常被稱(chēng)為“救火”隊員,依靠人工巡檢的工作方式,不但工作被動(dòng),而且效率低下。因此,分布式系統除了應符合我們之前提到六大標準外,還需要為用戶(hù)提供智能化的運維管理服務(wù) ,也就是今日與大家分享的判別分布式系統優(yōu)劣的第七大標準。
七看 運維管理
智能化的運維管理就像人體的免疫系統一樣不可或缺, 它可以圍繞業(yè)務(wù)系統進(jìn)行日常安全監測,掌握系統的各項指標,并根據指標作出“健康”與否的判斷;對檢測到的設備運行不正常狀態(tài)或者設備故障發(fā)生預警,并及時(shí)通知運維管理人員進(jìn)行維護。這種運維方式側重于設備故障隱患和缺陷的早期發(fā)現和處理,提高了設備的穩定性和可靠性。
專(zhuān)業(yè)的運維管理解決方案涵蓋如下要點(diǎn):
1、動(dòng)態(tài)展示系統連接的拓撲圖
與分布式相關(guān)的周邊系統,尤其是網(wǎng)絡(luò )系統,都與最終畫(huà)面上屏的響應速度、圖像質(zhì)量、操作延遲、拼接同步性等效果息息相關(guān)。分布式節點(diǎn)通過(guò)交換機、路由器等網(wǎng)絡(luò )設備連接,任何一個(gè)網(wǎng)絡(luò )節點(diǎn)故障、掉線(xiàn),都會(huì )使得某路畫(huà)面黑屏,這時(shí)需要能夠及時(shí)定位到故障點(diǎn),才可以在最短時(shí)間內解決網(wǎng)絡(luò )故障。
因此分布式系統的運維管理軟件需要能提供一個(gè)動(dòng)態(tài)變化的設備連接拓撲圖,通過(guò)拓撲圖直觀(guān)地看到分布式設備及周邊設備的在線(xiàn)狀態(tài)與故障狀態(tài),不用實(shí)際到現場(chǎng)排查,就可以反饋給用戶(hù)到底是哪個(gè)環(huán)節發(fā)生問(wèn)題。
2、圖形化查看設備詳細運行指標
除了設備的在線(xiàn)與否之外,為了更好的掌握系統運行狀態(tài)與趨勢,設備的詳細運行指標也同樣關(guān)鍵,如各個(gè)分布式節點(diǎn)的輸入輸出分辨率、幀率、視頻傳輸速率等。與分布式設備連接的交換機,也需要實(shí)時(shí)了解其運行時(shí)間、溫度、CPU占用率、內存占用率、某端口流量、抖動(dòng)、丟包率等。
只有掌握了這些信息,才能在發(fā)生畫(huà)面抖動(dòng)、卡頓、錯位等“軟問(wèn)題”時(shí),精準定位到問(wèn)題所在,降低分布式系統可能受到的外界環(huán)境干擾。
3、具備故障告警與預警提示
傳統的運維模式通常是被動(dòng)式的,即用戶(hù)發(fā)現問(wèn)題,再排查問(wèn)題所在。而現代化的分布式運維更應該是主動(dòng)式的 ,即系統一旦發(fā)生故障,分布式系統要能主動(dòng)以頁(yè)面的彈窗、聲音或郵件、短信等渠道,為用戶(hù)做出告警提示,即使用戶(hù)不再指揮中心或會(huì )議室內,也能通過(guò)手機等方式遠程掌握分布式系統的狀態(tài)。
另外,智能化的運維管理應不僅僅是發(fā)生問(wèn)題、解決問(wèn)題,更應該利用大數據等手段,記錄系統運行數據,并對未來(lái)趨勢進(jìn)行預測,在設備可能發(fā)生某個(gè)問(wèn)題之前,前置性的做出預警提示,真正提高分布式系統的穩定性。
4、建立完善并有記錄的運維工作流程
擁有了設備的監測與告警,用戶(hù)可以最短時(shí)間內掌握系統故障點(diǎn),但如何解決這些故障,依舊是一個(gè)值得深究的問(wèn)題。分布式系統具有無(wú)限的擴展性與覆蓋度,往往部署在大地域中。管理分布式的運維人員也常常不是一個(gè)人,而是上下級單位、各個(gè)機構多人配合。
效率最高的運維解決方案是多人分工配合,如管理員在指揮中心對整個(gè)分布式系統監管,發(fā)現故障點(diǎn)后,遠程指導操作員實(shí)際到現場(chǎng)處理,并可通過(guò)系統實(shí)時(shí)判斷問(wèn)題是否解決。這就需要分布式系統提供一個(gè)科學(xué)的運維工作流程,從發(fā)現問(wèn)題、派工單下發(fā)、到現場(chǎng)解決與問(wèn)題反饋,運維人員只需按照標準化的運維流程來(lái)操作,并在系統內記錄相關(guān)工作信息,即可高效率的完成運維管理工作。
5、覆蓋系統級別的統計與分析
真正的分布式運維管理是一門(mén)系統性的科學(xué)與工作,應該做到“精細化運維”。 所謂“精細化運維”,即不僅僅對設備運行狀態(tài)進(jìn)行監管,也要收集并記錄運維工作流中的告警響應時(shí)間、工單解決時(shí)間、故障處理時(shí)間等信息,同時(shí)通過(guò)數據的挖掘與關(guān)聯(lián),對各類(lèi)設備的故障率、高風(fēng)險參數、視頻質(zhì)量影響率等進(jìn)行分析,生成綜合性的多維度系統運行報表,幫助用戶(hù)持續改善分布式系統的運維管理工作與應用方式。
沒(méi)有運維管理的業(yè)務(wù)系統相當于人體失去了免疫系統, 不僅無(wú)法預防系統風(fēng)險,而且系統的安全性、穩定性完全不受保障…… 只有具備專(zhuān)業(yè)智能化運維管理的分布式系統,才是真正完整、可靠的分布式系統。
七大標準
從需求出發(fā),以技術(shù)為核心,判別分布式系統的優(yōu)劣。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
評論comment