网站域名出售 微信:  hucheng114

网站内容整理中,如有侵权内容请联系我们处理

友情文档

 找回密码
 立即注册
搜索
查看: 188|回复: 0
收起左侧

对大秦线CTC系统自律机存在双机抢主问题的分析

[复制链接]
等级头衔

等級:小学生

Rank: 2Rank: 2

积分成就
UID
3483
主题
44
精华
0
墨水
124

发表于 2022-2-27 19:48:23 | 显示全部楼层 |阅读模式
工作负担,提高工作效率,更重要是时降低了人工排路可能导致的错排进路的概率。
2 CTC系统的结构
2.1 体系结构
调度集中系统由铁路总公司、铁路局、车站三级组成。采用三层结构:第一层为铁路总公司调度中心;第二层为铁路局既有线/客运专线调度所CTC中心;第三层为车站子系统,构成覆盖全路的调度指挥网络体系。铁路局分别设置客运专线CTC中心和既有线TDCS/CTC中心。
CTC系统网络包括总公司TDCS/CTC中心局域网、铁路局既有线TDCS/CTC中心局域网、铁路局客运专线CTC中心局域网、车站局域网及广域网。其中,广域网由铁路总公司TDCS/CTC中心与铁路局既有线TDCS/CTC中心以及铁路局客运专线CTC中心之间的广域网、相邻客运专线CTC中心之间的广域网、既有线TDCS/CTC中心与车站以及客运专线CTC中心与车站之间的广域网、车站与车站之间的广域网构成。
大秦线CTC网络是把太原路局调度中心与42个车站连接起来,整体网络采用星型结构与环型结构相嵌套的模式,这样既具有星型分层结构的优点,又有环型结构的特征,简单来说就是把42个站分为四部分,每一部分组成环网,四个环的头站和尾站直接连接太原中心,四个环与中心类似于星型连接,这样增加了整个网络的稳定性,一旦某一个站发生脱网,不会影响到其他车站与中心的连接。如图1所示。
而且为了增加大秦线CTC系统网络的可靠度,CTC采用双通道运行,这样避免了通道发生问题后导致某一车站无法与中心进行联系,因此构成每个站网络通道的设备都有双套,每个站设置有两台路由器、两台交换机,每一种服务器、工作站、计算机都有两台,每台安装有两块网卡,提供了充分的冗余,例如路由器一和二处于热备状态,自律机A和B也处于热备状态。当某一个网络设备出现故障的时候,备用设备自动转变为主用;当某一个网段不通或误码大(可靠度小于252)的时候,可以通过另一个网段与中心保持通信,车站计算机从两块网卡发出两份相同的数据,只要有一份数据传送到中心服务器,系统就能正常运行,双网结构这样也为通道维护人员提供处理故障的宝贵时间,在不影响主用网段的时候进行故障网段的处理,极大提高网络的安全性。车站设备网络连接方式如图2、3所示。
2.2 自律机的热备
大秦线自律机双机热备基于active/standby方式的服务器热备,在同一时间内只有一台自律机运行另一台处于热备状态,当其中运行着的一台自律机出现故障无法启动时,另一台备份自律机会通过软件诊测(通过心跳诊断)将standby自律机激活,保证应用服务在短时间内完全恢复正常使用,作为大秦线CTC系统中最核心的设备,自律机的安全、稳定性能将直接关系到整个CTC系统的稳定,因此大秦线自律机采用双机热备(基于纯软件)的方式来提高自律机的稳定性。
纯软件方式可以在一定程度上降低成本,但它也有非常明显的缺点:
(1)可靠性相对较差,两服务器间的数据实时复制是一个比较脆弱的环节。
(2)一旦某台服务器出现中断,恢复后還要进行比较复杂的数据同步恢复,并且这个时段系统处于无保护状态。
(3)没有事务机制,由于其复制是在文件和磁盘层进行的,复制是否成功不会影响数据库事务操作,因此有出现数据不完整变化的情况,这个存在着相当的风险。
基于active/standby方式的自律机热备,会受到主/备机之间的通道质量及主/备机自律机软件中通信模块的影响,一旦主/备机之间的通道质量开始下降(误码增加),主/备机之间的心跳诊断将会受到影响,从而导致备机侦测不到主机发来的指令,备机由备用升为主用,而此时主机仍旧处于主用状态,这时就发生了双机抢主的问题,发生双机抢主的现象,导致主/备机同时向车务终端发送数据,造成数据叠加,使得终端显示与实际不符,影响到调度员的指挥判断,严重时会导致非正常停车,影响大秦线的正常运行。
3 故障案例
(1)2014年11月14日23:25分,玉田北——迁西区间信号机显示异常,电务人员立即通过调监大屏进行确认,为遵化北站管辖范围的信号机,通过Pcanywhere软件远程登录到遵化北站CTC自律A机和自律B机,发现自律A机和自律B机互相抢主,重启自律机软件后,23:45分时CTC恢复正常。
(2)2014年9月27日15:50分及23:26分CTC大屏显示延庆对下庄区间信号机非正常显示。电务人员分别通过Pcanywhere软件登陆延庆站自律A机、自律B机,发现自律A,B机正在抢主,判断为因自律A,B机抢主引起的区间信号机非正常显示,重启自律机软件后,区间信号机恢复正常。
上述案例充分说明自律机A、B机一旦发生双机抢主将造成CTC显示信息异常,影响到正常行车秩序,通过系统回放及故障查找发现:a.主/备自律机之间的通道质量下降,会导致两者之间信息传输出现问题,备机检测不到从主机发送过来的心跳信息,从而导致主/备机出现抢主;b.主/备自律机运行中发生软件报错等软件问题也会导致主机跑死,从而发生抢主的问题。
4 故障的预防和解决
(1)通过加强日常网络通道巡视,每日定期对大秦线管内车站自律机通道进行测试,通过主/备机互相Ping及发送数据包测试丢包情况,发现通道质量不良的及时进行查找处理,制定措施优化通道,确保通道质量良好。
(2)通过Pcanywhere软件远程登陆自律机进行查看,发现存在软件报错或自律机CPU运行内存过高的情况及时进行处理,定期将磁盘进行整理。
(3)优化自律机软件通信功能,多次自律机抢主故障表明,软件本身通信质量不强也是影响因素之一,通过优化自律机软件通信能力,减少故障的发生。
(4)采用基于存储共享的自律机双机热备方式,对于这种方式,采用两台自律机,使用共享的存储设备(磁盘阵列柜或存儲区域网SAN)。两台自律机可以采用互备、主从、并行等不同的方式。在工作过程中,两台自律机将以一个虚拟的IP地址对外提供服务,依工作方式的不同,将服务请求发送给其中一台自律机承担,同时自律机通过心跳线(往往采用建立私有网络的方式)侦测另一台自律机的工作状况。当一台自律机出现故障时,另一台自律机根据心跳侦测的情况做出判断,并进行切换,接管服务。这一过程是全自动的,在很短时间内即可完成,从而对设备运行不会造成影响。由于使用共享的存储设备,因此两台自律机使用的实际上是一样的数据,由双机或集群软件对其进行管理。
目前导致大秦线自律机双机抢主的问题很多,但自律主/备机网络通道质量下降以及软件本身通信模块通信不畅是导致问题发生的关键,文章主要从CTC系统发展、结构构成、大秦线CTC系统网络架构以及双机抢主问题预防和解决角度进行阐述。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表