第一作者:简捷(1989—),男,安徽蚌埠人,博士生.研究方向为列车通信网络.email:13117365@bjtu.edu.cn.
列车通信网络是轨道车辆可靠安全运行的重要保障,具有可靠性高、实时性强、故障切换与恢复时间短等特点.提出基于PRP和HSR的列车通信网络结构,实现网络故障零恢复时间.在此基础上依据系统可修性和功能相关性及冗余性特点,采用DFTA对其进行可靠性建模;引入BDD和Markov矩阵分解静态子树和动态子树以优化传统故障树分析的计算量;针对具体算例对PRP、HSR、RSTP协议的可靠性指标进行量化求解与对比分析.研究结果表明:提出的PRP与HSR冗余结构和RSTP相比,平均故障间隔时间分别增长了5 764 h与5 269 h,有效提升了网络可靠性.
Train Communication Network (TCN) is the substantial guarantee of reliable and safe operation of rail trains and is strict with performance of real-time ability, fault-switch time and reliability. Parallel Redundancy Protocol (PRP) and High-availability Seamless Redundancy (HSR) are introduced to realize zero-switch time on network fault station of TCN. Due to the characteristics of reparability, functional dependency, fault-tolerance and redundancy, Dynamic Fault Tree Analysis (DFTA) is proposed to analyze the reliability of PRP and HSR on TCN. Binary Decision Diagram (BDD) and Markov matrix are adopted to resolve static and dynamic fault tree so that the quantity of calculation is reduced. The reliability indexes of PRP, HSR and Rapid Spanning Tree Protocol (RSTP) are quantified and analyzed in detail. The analysis results show that the proposed PRP and HSR redundancy structure has increased 5 764 h and 5 269 h respectively compared with RSTP, which effectively improves the network reliability.
随着高速列车智能化程度及安全性要求的不断提高, 需要接入网络的设备及借助网络传输的数据量的提升促使列车通信网络(TCN)从传统的现场总线转向以太网以寻求带宽与速率的突破, 由此带来了网络系统冗余方式的变更.目前广泛采用的网络冗余设计方案利用交换机连接成环网以提供介质冗余, 利用快速生成树协议(RSTP)进行网络故障后的数据路由.这种设计的最大缺陷在于网络故障切换与恢复时间过长, 难以满足实时控制的需求.
故障恢复时间是衡量冗余协议可用性的最重要指标.高可靠性自动控制网络国标IEC 62439规定了若干种典型的工业以太网冗余协议, 其中并行冗余协议(PRP)和高可用性无缝冗余协议(HSR)的故障恢复时间为0 ms, 能够最大程度满足IEC 61375— 3— 4中基于以太网的列车通信网络故障恢复时间必须小于50 ms的要求.文献[1, 2]针对PRP与HSR冗余协议的实现与优化进行了研究, 改进了冗余帧管理算法, 缓解了单播与广播场景下, 帧冗余带来的网络压力, 提升了冗余协议的有效数据吞吐量, 加强了冗余协议的工业应用优势, 但研究没有对所提出的冗余协议进行可靠性分析与计算.
目前国内外对TCN的实时性分析较为充分, 但对于网络可靠性分析的研究较欠缺, 体现在网络可靠性采用数据帧端到端可达与否进行评价, 对于系统可修性、功能相关性及冗余性等特点缺乏量化研究.文献[3, 4]使用马尔可夫方法对非冗余网络构建可靠性评估模型.文献[5]使用二元决策图方法对基于非冗余交换式以太网的TCN进行可靠性分析.文献[6]提出传统成熟的可靠性评估方法, 如可靠性框图、静态故障树分析法等较难体现冗余网络系统的复杂性、动态性和多态性等特点.文献[7, 8]使用动态故障树与逻辑门对网络可靠性的动态性问题进行了分析, 解决了传统Markov状态转移图难以对冗余网络进行精确建模的难题, 同时带来了动态故障树分析法运算复杂和计算量大的缺点.文献[9, 10, 11, 12]利用最小割集法、Monte Carlo法和二元决策图等多种方式来优化动态故障树分析(DFTA)的计算量.
本文作者在基于交换式以太网的TCN缺乏快速故障恢复冗余协议的背景下, 分别基于PRP和HSR两种无缝冗余协议, 提出了合理有效的TCN冗余结构.引入动态逻辑门表征不同网络冗余机制的功能相关性与冗余性, 利用基于二元决策图(BDD)优化DFTA的可靠性分析方法对网络指标进行量化分析.较之传统手段, 改进了TCN的可靠性评估信息不准确和不全面的现实问题, 在保证可靠性计算准确度的条件下, 降低了计算复杂度, 可为TCN的设备维护和可靠度分配设计及运营决策等提供参考与服务.
列车通信网络由两层网络组成, 分别是列车骨干网络(Ethernet Train Backbone, ETB)和列车编组网(Ethernet Consist Network, ECN).ETB负责整个列车范围内的通信, 并实现列车拓扑发现协议, 它由骨干网节点(Ethernet Train Backbone Node, ETBN)构成, 采用线形拓扑结构.ECN由组网节点(Consist Network Node, CNN)构成, 负责列车组网内的通信.车载终端设备通过CNN连接到ECN, 每个车辆编组内的ECN通过ETBN连接至ETB, 从而实现车辆编组之间的通信.现阶段广泛采用基于RSTP的TCN冗余拓扑如图1所示.图1中ED(End Device)为终端智能设备.
采用PRP冗余的TCN架构如图2所示, ETB采用双链路热备传输提供冗余.ETBN同时与ECN的两个子网连接, 子网采用不同的拓扑形式, 且角色平等, 没有主辅之分.本文为体现这一特点, 子网A设计为环网拓扑, 子网B设计为树形拓扑.网络终端设备为双连接节点(Double Attached Node implementing PRP, DANP), 有两个端口, 支持PRP协议, 直接与两个子网连接, 实现冗余通信.图2中相同标号的CNN代表CNN冗余对.如1号车厢的DANP通过两条冗余链路(图中实线与虚线)分别连接在互为冗余的两台节点交换机CNN_1上, 图2中8台CNN组成4组CNN冗余对, 为4节车厢(或组网)提供网络冗余.
冗余数据帧在发送时被复制为两个数据内容相同的复制帧, 在两个子网同时传输.网络无故障传输时, 接收节点会收到两个复制帧, 链路层对复制帧进行丢弃算法处理之后保留一个复制帧传输给上层; 网络发生单点故障时, 接收节点也能保证至少有一个复制帧准时到达, 不会出现数据帧的延迟或丢失.PRP协议对以太网数据链路层以上协议完全透明, 可以采用标准或实时性改进后的以太网协议.ETBN和CNN均采用满足列车电磁兼容和振动环境要求的工业以太网交换机, 能够实现故障检测及链路切换功能, 并实现列车拓扑发现协议及IP地址分配等IEC 61375中规定的功能.
HSR冗余的基本结构如图3所示, 由双端口网络设备(Doublely Attached Nodes implementing HSR, DANH)、单端口设备、冗余盒及以太网环网组成.在无差错通信过程中, 发送设备从双端口设备的两个以太网端口同时向环网中的相反方向发送相同的数据包, 单端口设备的数据帧则通过冗余盒进行端口和协议扩展.数据包经过环网传输链路上每个双端口设备的转发后到达目的设备.在接收端, 目的设备在确定的时间窗口中从两端口先后接收到数据, 依据丢弃算法, 采用第1帧到达的数据, 丢弃第2帧.即使网络中出现单点故障, 也可保证网络故障零切换时间与无数据丢失.
基于HSR的列车通信网络冗余结构如图4所示, ETB采用线形网络拓扑结构, 双链路传输提供冗余.ETB通过如图4虚线内所示的ETBN与ECN相连, 提供节点冗余与故障旁路.相比PRP的多节点汇聚后的交换机转发机制, HSR将数据转发时延分配到各DANH.每个HSR节点累积的时延
式中:
HSR冗余环中的最大节点个数
式中:
在如图4所示的HSR列车通信网络中, 每节车厢设置一个ETBN并管理本节车厢的ECN.此ECN中的所有网络设备连接成标准HSR环网.根据IEC 62439— 3协议规定及上述时延分析, 1 528字节数据在50个节点环网中完成循环的时延边界为6 ms, 时延要求及节点数量符合列车实际通信业务需要, 同时也满足IEC 61375— 3— 4对以太网周期性过程数据的实时性约束需求.
HSR与PRP都可实现零切换时间与无丢包传输, HSR相比PRP还有以下优势:1)HSR采用特殊设计的环形拓扑, 由于不存在多节点数据汇聚与排队等待, 相比于其他的拓扑形式响应时间更具确定性; 2)HSR的数据传输以环网冗余链路及双端口设备的顺次转发为基础, 环网中无需交换机; 3)在同等可靠性标准下, 节约了网络布置成本, 简化了网络设计与布线.而HSR的缺点在于相比PRP的子网冗余, HSR采用了环形链路介质+冗余帧的无缝冗余方式, 在一套网络中传输与PRP两套子网等量的数据, 降低了网络的有效信息传输效率.
过程工业功能安全标准IEC 61508与IEC 61511将故障树分析法作为系统可靠性分析的有效方法.传统的静态故障树分析法虽广泛应用于各类复杂工业系统的可靠性与安全性评估中, 但其无法描述系统的冗余、失效相关和序列相关等特性.以Markov方法、Petri网理论为代表的动态故障分析方法可以解决此难题, 能够清楚地描述系统动态可靠性, 但其缺点在于状态空间的规模随系统规模、动态过程的复杂度增大呈指数增长, 并出现状态组合空间爆炸问题.如当故障树有
考虑引入DFTA解决上述问题.整个动态故障树中通常本质动态部分只占很少一部分, 因此将静态子树与动态子树分离后, 可以大大缩减Markov模型的规模.在此基础上, 用BDD对动态故障子树的计算结果与静态故障子树进行合并分析与计算, 分析故障树整体的可靠性, 从而降低了建模难度与计算复杂度, 提高了分析效率.除此之外, 相比于FTA, DFTA可以将系统中的故障修复和冷热备份等动态特性纳入考量.本文的研究对象是基于PRP与HSR热备冗余结构的可修系统, DFTA可以更加合理分析评估列车通信网络的总体可靠性水平.
根据图2和图4所提出的列车通信网络冗余结构及分析, 建立网络冗余系统及每个ETBN下属ECN子网的动态故障树模型, 其中PRP冗余网络DFTA模型如图5所示, HSR冗余网络DFTA模型如图6所示.作为对比, 对图1所示的RSTP冗余网络也进行DFTA建模如图7所示.
为了使故障分析更简明, 本文将列车通信网络的功能性设备归纳两类, 分别是远程输入输出模块(Remote IO Module, RIOM)和ED, 所有影响网络运行并会造成网络故障的事件均作为DFTA的底事件.使用动态逻辑门描述各子系统的交互部分故障.图5至图7中HSP表示热备件门, 其在备用状态的故障率与工作状态下故障率相同.D表示动态或门, 当底事件输入至少有一项发生时, 门的输出事件发生.圆形图标代表故障树底事件, 方形图标代表中间事件或顶事件.
从图5至图7中可见, 列车通信网络冗余结构的动态故障树模型随冗余方式不同而具有较大差异, 并且可靠性数值计算受网络结构、所有终端设备、物理链路和接口及功能单元的影响, 所涉及设备多且复杂, 不便于直接用静态故障树计算.同时也可见, PRP与HSR冗余提供了动态热备单元以实现故障下无缝数据切换, 而RSTP不具有这一功能.
列车通信网络一般为可维修系统.本文所用可修系统的可靠性指标计算方法如下.
1)网络可用度.设
2)网络故障频度.设网络系统在时间区间
3)平均开工时间与平均故障间隔时间.平均开工时间(Mean Up Time, MUT)表示网络系统在稳态条件下正常工作的平均时间, 平均故障间隔时间(Mean Time Before Failure, MTBF)表示可修复系统在发生
由图5和图6可知, 本文提出的基于PRP和HSR的列车通信网络动态故障树模型有7~10个底事件, 若直接转化为Markov过程, 状态个数巨大, 且随着网络设备的增加和网络的演进, 该维数会越来越高, 直接进行迭代计算时, 会严重消耗计算设备内存与计算时间, 多次的有效数字约减会增大计算误差, 降低准确度与效率[13, 14].本文对图5与图6中的动态逻辑门单元进行Markov动态子树求解, 得出动态可靠性指标后, 用其参与整个故障树的BDD静态子树计算, 得出整个冗余网络的可靠性指标.
定义1 BDD是节点具有标号的有向二叉树图
定义2 设系统故障树有
在BDD静态子树分析中, 用BDD图的中间节点表示故障树模型的底事件, 其发生的不交化组合, 由根节点到叶节点的每条路径来表征[13], 而发生与否, 由其所在路径转向
基于IEC 61375-3-4中提供的元件可靠性数据, 对本文提出的图2和图4中基于PRP和HSR的列车通信网络冗余结构进行可靠性分析.为了说明冗余结构相比目前冗余方案的优势, 对如图1所示的RSTP冗余结构进行基于BDD的故障树可靠性分析, 并与PRP、HSR进行对比.
考虑到现有动车组TCN结构以4节车作为一个牵引单元, 本文的算例分析取4节车的设备量进行计算, 设每节车装备有2台RIOM, 10台ED.图5至图7中的底事件元件失效率如表1所示, 平均维修时间
| 表1 列车以太网冗余元件可靠性数据 Tab.1 Reliability data of the ECN componentsh-1 |
3.3.1 PRP冗余结构可靠性求解
PRP冗余结构的动态部件为两个并行的冗余子网.图5中模块B1冗余子网故障是A、B两个冗余子网的动态热备组合, 设子网A的故障率为
设元件修复率为常数, 则
代入式(3)进行静态故障子树运算, 求得子网A故障率为
用
式中,
依据图8列举状态转移矩阵得
带入式(4), 得系统各状态的稳态分布为
将
实例计算中, 网络ETBN取1台, ETB链路采用双线热备冗余, 故障率约为0.将表1及式(7)中参数代入式(3)进行静态故障树迭代计算, 可得PRP冗余的TCN网络可靠性参数为:
3.3.2 HSR冗余结构可靠性求解
HSR冗余结构的动态部件在图3中为HSR通信设备DANH中交换单元的两个端口.两端口功能等效、角色平等.设两端口故障率同为
列举概率转移矩阵, 得
依据状态转移矩阵, 建立方程组为
求解得
由表1得,
实例计算中, 参考图4拓扑, 每节车辆布置1台ETBN, DANH共计48个.DANH采用环形链路连接, 链路故障率约为0.将表1及式(11)中参数代入式(3)进行静态故障树迭代计算, 可得HSR冗余的TCN网络可靠性参数为:
3.3.3 RSTP冗余可靠性指标计算
RSTP网络冗余结构如图1所示, 动态故障树模型及故障底事件如图7所示, 冗余网络中共需交换机4个, ETBN 1个, 交换机链路故障率为单一链路失效率, ETBN链路双线冗余故障率约为0.将网络元件失效率参数代入式(3)进行静态故障树迭代计算, 求得RSTP冗余的TCN网络失效率为
3种网络冗余结构的可靠性参数总结见表2.
| 表2 冗余可修网络可靠性指标 Tab.2 Reliability data of the ECN components |
从表2中的数值可以分析得出, 本文采用的PRP与HSR的故障恢复时间均为0 ms, 而RSTP的恢复时间约为1 000 ms.不考虑实时性能与网络故障恢复时间, 单从可靠性角度比较, PRP冗余采取了两个冗余子网并行通信, 通信设备同时接入两个子网且内部兼容RSTP冗余协议, 属于网络冗余, 可靠性指标数值最高; HSR冗余的通信设备同时从两条冗余链路进行通信, 属于介质冗余, 可靠性次之.目前列车以太网通信系统中采用的RSTP可靠性最低, 平均故障间隔时间比PRP短5 764.32 h, 约下降65.45%, 比HSR短5 268.87 h, 约下降63.39%.
从图10可知, 随着列车终端设备数量的增加, 3种冗余协议的可靠度均呈下降趋势, 但其平均故障间隔时间始终保持PRP> HSR> RSTP的特点.
因此从网络故障恢复时间及冗余结构的可靠性来分析, PRP与HSR更适合承担列车通信网络功能, 而RSTP不宜作为承担控制功能的冗余协议.
1)采用DFTA对TCN建模并进行可靠性量化分析.引入BDD和Markov矩阵分解静态子树和动态子树并分别求解, 降低了传统故障树分析中Markov状态转移过程的计算量, 且计算结果更准确.在具体算例中, 求解了PRP、HSR、RSTP分别应用于TCN冗余可修系统时, 网络系统的
2)分析表明:在网络可修条件下, PRP冗余具有最高的网络可靠性, 但成本也最高, 适用于关键网络设备或核心子网的热备运行; HSR与RSTP冗余网络设备数量与布线复杂度相近, HSR具有较高可靠性, 适用于网络可靠度要求稍低, 可靠性与设备数量成本需要折衷的网络或不可修网络中; RSTP可靠性最低且故障切换时间长, 不适用于列车控制网络.
The authors have declared that no competing interests exist.
| [1] |
|
| [2] |
|
| [3] |
|
| [4] |
|
| [5] |
|
| [6] |
|
| [7] |
|
| [8] |
|
| [9] |
|
| [10] |
|
| [11] |
|
| [12] |
|
| [13] |
|
| [14] |
|

