|
摘 要:SDH光传输网是通信的基础网络,目前SDH传输网一般都具备网络自愈功能,单点故障不会对通信业务造成很大影响,但如果多点同时发生故障,将导致业务大面积中断,甚至导致通信瘫痪。文章介绍了一起由于设备设计缺陷,导致SDH网多点同时故障,业务大范围中断的故障,从原理上分析了故障原因,提出了改进措施。
关键词:SDH传输网;故障;分析
引言
SDH光传输网作为通信的基础网络,具有路由自动选择能力,上下电路方便,维护、控制、管理功能强,网络自愈能力强等优点,无论在电信运营商或电力、铁路等专网中均得到广泛应用。SDH传输网具备网络自愈能力,一般的设备单点故障不会对通信业务造成很大影响,但如果多个网络节点同时失效,将导致业务大面积中断,甚至导致通信瘫痪。
1 故障概况
故障中,A站点发生交叉时钟盘硬件故障,导致环上B、C、D、E、F、G、H等站点都出现LOS、MS_RDI、MS_DEG等告警频繁振荡。环上多个站点业务中断。现场运行维护人员拔出A站故障的交叉时钟盘后,故障消除,业务恢复正常。
2 原因分析
故障SDH设备系统整体架构框图如下图:
故障设备时钟交叉盘集成了时钟单元和交叉单元两部分电路,时钟单元提供系统所需时钟给交叉单元及和各个槽位接口盘,作为交叉芯片、光盘内FRAME成帧芯片的参考时钟,各个光盘通过背板2.5Gb/s 的CML高速数据总线与交叉单元相连。
时钟部分电路如果出现异常,输出质量不稳定(即频率发生偏移)的时钟信号,交叉和光盘利用该参考时钟对于2.5G数据总线采样输出,可能因为采样错位导致输出的数据上出现长“0”或者长“1”等异常信号。这个异常信号可能出现在总线的开销位置或者净荷位置。
在设备的发送方向,光盘会将段开销字节再生一次发送出去,对于净荷内容按照交叉路由表进行净荷交叉后发往相应的光口。如果上游站(A站点)输出的2.5G线路数据信号中在净荷位置出现长“0”或长“1”,将导致下游站点信号检测异常,上报LOS、MS_RDI、MS_DEG等告警。第二个站点再次依照交叉路由表将净荷(对用户来讲就是一条条的VC4/VC12)交叉后送给第三个站点,仍会导致第三站点信号检测异常,上报LOS、MS_RDI、MS_DEG等告警,以此类推,后续整环都会出现“LOS透传”现象。
图3所示的A点即为此次故障A站点E3和E4光盘发出错位信号的点位。
光接口盘功能示意图如图4所示:
A点可能出现长“0”或长“1”故障,一旦此处出现长“0”或长“1”信号,那么该信号经过光接口盘的B处右侧模块解扰后,在B处就不再是长“0”或长“1”,但是经过C处的右侧加扰模块后,由于系统上加扰和解扰的扰码多项式都是一样的,所以C处又还原出长“0”或长“1”信号来,导致光路送给下游站点的仍为长“0”或长“1”信号,下游站点无法正常进行信号检测。
若在B处插入AIS处理功能,在A点出现长“0”或长“1”的信号经过B处进行解扰,检测出信号异常,在B处插AIS,那么相当于在B处将解扰后的净荷部分的数据变成了全“1”,这个全“1”净荷再经过C处的扰码算法后,发出的光信号就不在有长“0”或长“1”了,下游站点能正常工作。在光接口盘检测到数据信号出现频率偏移(即交叉单元送过来的信号有OOF等告警)时,对净菏传输通道进行插入AIS处理,经插入净荷为全“1”的AIS信号经过扰码处理,确保信号中不会出现长“0”或长“1”现象,下游能够正常检测出信号,完成定帧、时钟提取等功能。
3 结束语
这是一起由于传输设备设计缺陷导致的故障:1)A站交叉时钟盘时钟芯片硬件故障,采样错位导致输出的数据上出现长“0”或长“1”等异常信号,光盘从接收端(交叉侧)收到异常信号后,没有向发方向(光路侧)插入“AIS”,导致向下游站点发出异常码流;2)接收端设备在收到异常码流后,没有考虑异常码流处理机制,未能对异常码流进行有效处理,导致异常码流向下游传递,从而引起整个环的业务中断。
SDH传输设备设计上必须考虑异常码流处理机制,当设备由于软硬件故障等原因出现异常码流时,应该具备异常码流处理能力,及时终结异常码流的传递,确保异常码流不会迎着业务方向往下游传递,引起环网业务中断。 |
|