新聞資訊
了解故障案例及產(chǎn)品資訊
新聞資訊News
相關產(chǎn)品Related Product
問題描述
運營商中心機房OSN3500設備配置了4塊EGS4單板與數(shù)通CE對接,承載3G業(yè)務。5、6板位EGS4配置為BPS保護;13、14板位EGS4配置為BPS保護,5、13板位為主用。某日客戶反饋該站點主控板上報HARD_BAD告警,告警參數(shù)為0x0e0xff0xff0xff0xff,告警上報持續(xù)2-3小時后自動消失,同時有BPS狀態(tài)事件上報。業(yè)務未受影響。
該站點使用N4EGS4單板多板ID配置為N3EGS4單板使用。
主機版本為:5.21.18.50;EGS4單板版本為:1.14
告警信息
告警名稱:HARD_BAD
告警參數(shù):0x0e0xff0xff0xff0xff
處理過程
1、現(xiàn)場檢查與CE連接的尾纖發(fā)現(xiàn)尾纖故障,更換尾纖后ETH-LOS告警消失,單板link燈亮。持續(xù)觀察再未發(fā)現(xiàn)HARD_BAD告警上報。
2、該問題需要將N4EGS4單板軟件升級到1.15及其以上版本徹底解決。
根因
1、從告警參數(shù)看應該是14板位EGS4單板故障導致,但如果是單板故障怎么會自動消失呢?現(xiàn)場嘗試插拔單板、更換單板后故障依舊。排除單板故障因素。
2、因為13、14槽位單板是后期擴容上的單板,因此懷疑擴容時母板倒針。拔下單板仔細觀察未發(fā)現(xiàn)倒針現(xiàn)象。
3、現(xiàn)場處理過程中發(fā)現(xiàn)現(xiàn)網(wǎng)使用的4塊EGS4單板中只有14槽位單板上報ETH-LOS告警,并且單板的link燈不亮,因此懷疑是與該單板端口狀態(tài)異常有關,但是端口異常怎么會導致主控上報HARD_BAD告警呢?
經(jīng)過最終定位:
SSN4EGS4檢測到端口linkdown時,會周期性設置8K線為2k狀態(tài)值,但每次設2k狀態(tài)前,軟件錯誤地先置了低電平(低電平表示單板故障),并維持了50ms,在這50ms內,主機正好來檢測hadbad狀態(tài),就會上報hadbad告警。另外,由于8K線狀態(tài)發(fā)生變化,交叉板會因此上報BPS倒換狀態(tài)事件。
因此該告警屬于誤報。
建議與總結
發(fā)現(xiàn)問題后多進行對比分析,找出故障單板與正常單板的不通之處,對于疑難雜癥可以向二線專家及研發(fā)求助。