新聞資訊
了解故障案例及產(chǎn)品資訊
新聞資訊News
相關(guān)產(chǎn)品Related Product
問(wèn)題描述
SSN2EGS2單板在OSN1500網(wǎng)元上正常運(yùn)行兩個(gè)多月后,出現(xiàn)反復(fù)上報(bào)COMMU_FAIL、LP_SLM_VC12、ETH_LOS告警并且業(yè)務(wù)中斷的問(wèn)題。在現(xiàn)網(wǎng)進(jìn)行了軟/硬復(fù)位單板、拔插單板操作,均無(wú)法解決問(wèn)題。
告警信息
COMMU_FAIL、LP_SLM_VC12、ETH_LOS。
處理過(guò)程
1、更換單板為SSN1EGS4等數(shù)據(jù)單板,SSN1EGS4上軟件做了防協(xié)議報(bào)文沖擊的保護(hù)機(jī)制,所以更換單板后問(wèn)題得到解決。
2、SSN2EGS2單板軟件升級(jí)到5.51版本以上。
根因
分析單板的黑匣子,發(fā)現(xiàn)debugbuf.log中記錄了大量單板軟復(fù)位的記錄,可見(jiàn)的確是不斷的軟復(fù)位造成了單板反復(fù)上報(bào)COMMU_FAIL告警,這個(gè)告警表示主控與數(shù)據(jù)板的以太通訊通道發(fā)生了中斷。由于SSN2EGS2這個(gè)單板比較特殊,軟復(fù)位和硬復(fù)位的效果一樣,都會(huì)中斷業(yè)務(wù)。所以,現(xiàn)網(wǎng)EGS2單板發(fā)生反復(fù)復(fù)位故障時(shí),業(yè)務(wù)是會(huì)反復(fù)中斷的。而反復(fù)上報(bào)的LP_SLM_VC12、ETH_LOS告警,也是單板反復(fù)軟復(fù)位所導(dǎo)致。
從debugbuf.log黑匣子記錄來(lái)看,是單板收到了大量協(xié)議報(bào)文,導(dǎo)致單板CPU占用率過(guò)高,從而發(fā)生復(fù)位。SSN2EGS2單板所采用的5.50版本軟件沒(méi)有做防協(xié)議報(bào)文沖擊的保護(hù)機(jī)制,當(dāng)網(wǎng)絡(luò)上可能因廣播風(fēng)暴產(chǎn)生大量協(xié)議報(bào)文時(shí),CPU會(huì)無(wú)法承載負(fù)荷而復(fù)位,從黑匣子記錄也可看到軟狗復(fù)位時(shí)處理協(xié)議報(bào)文的進(jìn)程占到了高達(dá)47.63%的CPU資源。所以重新拔插單板后,協(xié)議報(bào)文沖擊未解除,EGS2單板依舊會(huì)發(fā)生復(fù)位問(wèn)題。
建議與總結(jié)
在應(yīng)用支路SNCP配合ODUkSNCP特性時(shí),要注意兩種SNCP疊加配置方案的細(xì)微區(qū)別,這會(huì)對(duì)客戶側(cè)設(shè)備造成不同影響。特別是A公司的SDH設(shè)備在全球存量極大,做對(duì)接測(cè)試要注意這個(gè)問(wèn)題。