那些網(wǎng)絡(luò )中容易出現的故障!
來(lái)源:弱電工程師的圈子 編輯:小月亮 2020-07-21 17:07:13 加入收藏 咨詢(xún)

所在單位: | * |
姓名: | * |
手機: | * |
職位: | |
郵箱: | * |
其他聯(lián)系方式: | |
咨詢(xún)內容: | |
驗證碼: |
|
運維人最怕網(wǎng)絡(luò )出故障。先拋開(kāi)一些閑話(huà)不談,網(wǎng)絡(luò )故障從大體上來(lái)講,有下面幾種情況:
// 硬件問(wèn)題 //
既然網(wǎng)絡(luò )設備是一臺機器,就有可能出現“疲勞”,從而導致各種各樣的硬件故障出現。硬件的故障,一般有下面幾種情況。
第一種是造成整機停機的故障。
停機屬于重大安全問(wèn)題,造成停機的原因一般有以下幾點(diǎn):
(1)設備電源模塊損壞,常見(jiàn)于一些單電源的盒式交換機;
(2)設備在搬移過(guò)程中,因為碰撞,摔打造成的主板芯片受損;
(3)一些使用超年限的設備,在重啟的時(shí)候出現問(wèn)題,起不來(lái)了;
(4)因為機房環(huán)境不好,設備溫度過(guò)高造成“假死”的現象。
設備停機屬于重大安全問(wèn)題,也是特別緊急的事件,需要馬上更換設備。即使是假死,都要把備機準備好了再操作,防止假死的設備重啟時(shí)真的掛了。
第二種是設備的模塊、板卡損壞,不至于造成停機,但是引起了單點(diǎn)故障的隱患或者部分網(wǎng)絡(luò )業(yè)務(wù)中斷。
比如,Cisco 6509一般都會(huì )配備兩款引擎板卡,如果其中一塊引擎板卡損壞了,不至于造成該交換機停機,也不會(huì )導致網(wǎng)絡(luò )業(yè)務(wù)中斷。但如果不及時(shí)換掉這塊壞引擎板,就造成了這臺Cisco 6509單引擎運行,這肯定就是單點(diǎn)故障的隱患。如果這臺Cisco 6509壞掉的是一塊48口的千兆電口板呢?那肯定連接在這塊電口板上的業(yè)務(wù)全部中斷了。這種情況,就看根據整體的網(wǎng)絡(luò )業(yè)務(wù)有沒(méi)有受到影響來(lái)確定緊急程度了。對于客戶(hù)來(lái)說(shuō),壞一個(gè)板卡也是需要立即更換的。
// 軟件問(wèn)題 //
軟件問(wèn)題一般分為操作系統自身BUG,還有人為因素導致的操作系統拷貝不完整造成的一系列問(wèn)題。操作系統本來(lái)是一類(lèi)軟件,或多或少都會(huì )有一些BUG,可能體現在一些功能上面。
比較經(jīng)典的一個(gè)BUG就是H3C R6600系列,出廠(chǎng)自帶的操作系統Comware v7.1.059, ESS 0322,在配置BFD和BGP聯(lián)動(dòng)的時(shí)候(對端是Cisco),BFD就不生效,需要升級為v7.1.064, Release 7618才可以。這也就是為什么說(shuō)官網(wǎng)經(jīng)常對一些設備的操作系統軟件提供一些新版本的軟件包或者補丁包。
人為因素則是因為在對設備做軟件升級的時(shí)候,因為對設備操作系統軟件.bin文件拷貝不完整導致設備重啟以后就起不來(lái)了。導致這個(gè)問(wèn)題的原因一般都是在拷貝軟件到設備的Flash里時(shí),沒(méi)有仔細核對拷貝后文件的大小。
// 實(shí)施造成的問(wèn)題 //
實(shí)施造成故障,這也算是一種比較常見(jiàn)的問(wèn)題。網(wǎng)絡(luò )割接實(shí)施本來(lái)就有風(fēng)險。如果是操作人員經(jīng)驗不足或者技藝不精,對割接的風(fēng)險評估不足,前期的測試準備不充分,就有可能在網(wǎng)絡(luò )割接的時(shí)候不僅沒(méi)能對網(wǎng)絡(luò )完成優(yōu)化改造,反而帶來(lái)一些新的故障。
一個(gè)很典型的例子,就是思科的設備換成華為或者H3C。比如拿一個(gè)拓撲圖來(lái)說(shuō):
第一個(gè)風(fēng)險點(diǎn)就是私有協(xié)議要改通用協(xié)議。
之前的Cisco 4503E使用的網(wǎng)關(guān)冗余協(xié)議是HSRP,換成華為就要換成VRRP。在這里要注意的就是,HSRP的組播地址是224.0.0.2,VRRP的組播地址是224.0.0.18,這里是HSRP和VRRP最關(guān)鍵的一個(gè)差異點(diǎn)。所以,HSRP改VRRP,首先就要檢查Cisco 4503E上的所有VLAN接口(SVI),看看VLAN接口下是否掛了ACL,這個(gè)ACL下必須增加放行224.0.0.18。
隨后的風(fēng)險點(diǎn),就是這個(gè)鏈路捆綁 。
你可能會(huì )說(shuō),LACP是通用協(xié)議,華為的設備也支持啊!但是你要知道的是,思科的鏈路捆綁是Port-Channel,華為是Eth-Trunk。華為Eth-Trunk捆綁的默認是手工模式,也不是LACP,所以,華為這邊需要在配置Eth-Trunk的時(shí)候,加一條“mode lacp”命令。
還有呢,就是路由協(xié)議這邊的風(fēng)險了。
可能你也會(huì )認為,OSPF是通用協(xié)議,靜態(tài)路由更是幾乎所有三層設備都能支持,又能有什么問(wèn)題呢?
在這個(gè)例子中,兩臺Cisco 4503E通過(guò)OSPF收取路由,再利用靜態(tài)路由進(jìn)行分流。對于Cisco設備來(lái)說(shuō),OSPF路由的AD值是110,靜態(tài)路由的AD值默認是1。而華為設備,OSPF內部路由Pref值(類(lèi)似于Cisco的AD值)是10,OSPF外部路由的Pref值是150,靜態(tài)路由的Pref值是60。所以這里可以看見(jiàn):對于Cisco設備,靜態(tài)路由優(yōu)先級高于OSPF;而華為設備,OSPF內部路由的優(yōu)先級卻高于靜態(tài)路由。所以為了防止思科換華為以后分流失效,所以在華為設備上配置靜態(tài)路由時(shí),將pref值強行改為1。
如果是多路由協(xié)議混跑的骨干網(wǎng)中,思科設備換華為或H3C后,有時(shí)候也要在把華為或H3C上,把路由的Prefer值強行改為與Cisco一致。
當然,這里說(shuō)的風(fēng)險都是從宏觀(guān)上就能發(fā)現的一些風(fēng)險,還有一些小細節也可能是風(fēng)險點(diǎn)。比如光模塊能兼容Cisco,但不一定能兼容華為這些問(wèn)題,能考慮到哪些就考慮到哪些,考慮得越細致,割接時(shí)出問(wèn)題的概率就越低。
// 用戶(hù)造成的問(wèn)題 //
這里說(shuō)的用戶(hù)指的都是一些非專(zhuān)業(yè)用戶(hù)。很多運維人員都說(shuō):不怕這個(gè)用戶(hù)一點(diǎn)都不懂,就怕這個(gè)用戶(hù)是個(gè)似懂不懂的。有時(shí)候在辦公室里面悄悄接一個(gè)HUB,然后這個(gè)HUB上接滿(mǎn)了網(wǎng)線(xiàn),一不小心就把網(wǎng)線(xiàn)的兩頭就插在同一個(gè)HUB上造成環(huán)路了;還有就是有些人不知道從哪里聽(tīng)來(lái)的“旁門(mén)左道”,網(wǎng)速稍微一慢就亂改IP,認為一改IP上網(wǎng)就快了,結果搞得IP沖突。還有就是亂接U盤(pán),亂下載軟件,整一些ARP相關(guān)的病毒,弄得一個(gè)網(wǎng)段內的主機全部都掉線(xiàn)。
// 設計缺陷導致的故障 //
設計的缺陷分為以下幾種情況:
IP地址規劃問(wèn)題。
任何一個(gè)企業(yè),網(wǎng)絡(luò )規模都是從小到大的,在最初的時(shí)候,因為用戶(hù)數量少,IP地址充足,所以在規劃IP地址的時(shí)候都比較“奔放”。到了后期,用戶(hù)數量逐漸增加,業(yè)務(wù)分類(lèi)也越來(lái)越多,IP地址的管理也會(huì )變得越來(lái)越復雜。如果在最初的時(shí)候就沒(méi)有對IP地址有一個(gè)較好的規劃,就很容易在后期導致IP不夠用或者是把兩段IP地址規劃到了不同的站點(diǎn)里面。
一些人員技藝不精的問(wèn)題。
比如設計二層網(wǎng)絡(luò )的時(shí)候,讓生成樹(shù)的計算拓撲圖變得比較復雜,使得STP無(wú)法收斂;還有就是OSPF的區域規劃欠考慮,路由協(xié)議也是隨心所欲的用,設備上重分發(fā)很多,這些都會(huì )大大提升網(wǎng)絡(luò )中出故障的概率。
評論comment