新聞資訊
了解故障案例及產品資訊
問題描述
#1600開發(fā)區(qū)匯聚OSN3500設備與#1602文化路匯聚設備組成了雙纖雙向復用段環(huán)
某日晚20:44:28,#1600開發(fā)區(qū)匯聚-1(市區(qū)匯聚10)8板N1SLQ16上報COMMUN_FAIL(串口通信失效告警)。
20:46:09, 8板位-N1SLQ16上報BD_STATUS (單板不在位告警)。
20:46:10,網元上報MS_APS_INDI_EX,APS_INDI復用段保護倒換告警。此后, 保護倒換恢復,業(yè)務正常。
20:52:23,環(huán)網再次發(fā)生復用段保護倒換。
20:52:29,EGS4單板上報TU-AIS告警,業(yè)務中斷。期間伴隨上報17板位GSCC上報HARD_BAD(單板硬件故障告警),告警參數指向 8板位N1SLQ16。
21:16:57,重啟復用段協(xié)議后,保護倒換恢復正常,業(yè)務逐漸恢復。
1、#1600開發(fā)區(qū)匯聚-1(市區(qū)匯聚10)8板N1SLQ16上報COMMUN_FAIL(串口通信失效告警)。
2、#1600開發(fā)區(qū)匯聚-1(市區(qū)匯聚10)8板位-N1SLQ16上報BD_STATUS (單板不在位告警)。
3、#1600開發(fā)區(qū)匯聚-1(市區(qū)匯聚10)網元上報MS_APS_INDI_EX,APS_INDI復用段保護倒換告警。EGS4單板上報TU-AIS告警
處理過程
1、首次倒換時, #1600開發(fā)區(qū)匯聚8板N1SLQ16上報COMMUN_FAIL、BD_STATUS,導致對端#1602上報RLOS告警,引起環(huán)網復用段保護倒換,此時的倒換狀態(tài)是正常的。
2、二次倒換時,業(yè)務大面積中斷, 重啟全網的保護倒換協(xié)議,對#1600與#1602的K字節(jié)重新進行了全網重新校驗,校驗后復用段協(xié)議、K字節(jié)狀態(tài)正常,兩端的保護倒換狀態(tài)一致,保護倒換恢復正常。
3、將K字節(jié)信息采集分析,故障原因是1600開發(fā)區(qū)匯聚8板N1SLQ16硬件故障導致本網元的復用段協(xié)議模塊的K字節(jié)發(fā)送不準確,導致對端沒有收到正確的K字節(jié),導致兩端的協(xié)議模塊沒有按照預定的程序切換交叉頁面,引起了倒換失敗。具體過程:
A、#1602 11板位收SF消失,其會向對端#1600 8板位發(fā)送“倒換恢復請求”,#1600 8板位收到對端“倒換恢復請求”后會進行確認,并向#1602也發(fā)送“倒換恢復請求”。
B、#1602 11板位收到對端的“倒換恢復請求”后也會進行確認,同時通過11板位發(fā)送“切換空閑狀態(tài)”給命令給#1600的8板位,#1600的8板位收到“切換空閑狀態(tài)”后進行倒換狀態(tài)恢復,下發(fā)交叉頁面,本端恢復正常狀態(tài)。
C、同時#1600的8板位也會發(fā)送“切換空閑狀態(tài)”命令給#1602的11板位,#1602的11收到“切換空閑狀態(tài)”后,本端也進行倒換狀態(tài)的切換,下發(fā)交叉頁面,恢復正常狀態(tài),最終使得整個環(huán)網的倒換恢復正常。
但當時故障產生時的情況:由于8板N1SLQ16 瞬報單板不在位,#1602的RLOS瞬間消失,環(huán)網開始進行倒換恢復。 D、板N1SLQ16硬件故障導致其發(fā)送的“倒換恢復請求”變成了“切換空閑狀態(tài)”的命令,導致#1602直接由“倒換態(tài)”變成了“空閑正常態(tài)”,而對端#1600網元此時還處于“倒換態(tài)”,引起雙方倒換狀態(tài)不一致,導致了業(yè)務中斷。
根因
N/A
解決方案
1、由于發(fā)生了保護倒換但業(yè)務中斷,所以懷疑是復用段保護協(xié)議異常隨即重啟全網的復用段保護協(xié)議,重啟協(xié)議后保護倒換恢復正常,業(yè)務逐漸恢復。
2、由于#1600開發(fā)區(qū)匯聚8板N1SLQ16,N1SLQ16上報COMMUN_FAIL(串口通信失效告警)、 BD_STATUS (單板不在位告警)的異常告警,對此單板進行更換,更換后異常告警消失,保護倒換告警消失,保護倒換結束,復用段環(huán)網恢復正常狀態(tài)。
3、次日凌晨,做復用段倒換測試,多次倒換測試都正常,業(yè)務無中斷。
建議與總結
復用段倒換時,業(yè)務大面積中斷的故障,可考慮K字節(jié)傳遞異常,或復用段協(xié)議異常的影響,造成業(yè)務大面積中斷,可以果斷嘗試停啟復用段協(xié)議的方法,使協(xié)議復位,快速回復業(yè)務,然后處理其他故障單板。