网络中断意味着运营收入的直接流失,根据SLA惩罚条例,一小时通信中断的代价往往是运营商一天收入的总和……
保护倒换越快越好?
从理论上讲,网络的保护倒换速度越快,越有利于业务恢复。但是,在IP承载网与光网络配合组网的情况下,一味追求IP承载网的保护倒换速度会增加网络的倒换次数,反而降低了网络的稳定性。
Telemark在三年前对BT、AT&T、NTT等七大运营商进行的一次调查表明:“运营商在开展通信业务时,最关心的三个因素是网络的可靠性、网络的可用性和网络故障的处理能力,这三个因素都属于可靠性范畴。”
在这三个因素中,网络故障处理能力包括快速故障发现能力和业务保护倒换能力,是提高整网业务可靠性最直接有效的途径。运营级IP承载网,同样也对网络故障的保护倒换时间提出了具体的要求。以VoIP业务为例,运营这种对时延要求敏感的业务时,要求网络的保护倒换过程应当保持呼叫不中断,尽量少丢包。运营经验表明,当承载网的保护倒换时间在1秒之内时,即可保证呼叫连接不中断,仅有少量丢包现象,基本不影响通话质量。
但是,在大多数网络,多业务IP承载网与光传输设备配合组网,而光传输设备可以实现50ms的倒换速度,若IP承载网的保护速度快于光传输网,则会引起IP承载网进行两次路由收敛和倒换,进而影响到通信网络的稳定性。具体过程如下:当IP层以下网络链路发生故障时,光传输设备和IP承载网都能感知到故障存在,如果在光传输设备完成倒换之前,IP承载网已经倒换到次优路径,那么当光传输设备完成倒换后,原最优路径又重新可用,于是IP承载网会再次进行一次倒换。这就要求,IP承载网的倒换速度不能快于光传输的倒换速度,即倒换时间必须大于50ms。
从运营和计费的角度看,以NGN系统为例,要求IP承载网的保护倒换时间应当与TDM系统保持同步。这里列举一个苛刻的应用场景:PSTN本地网接入电话业务,通过媒体网关将TDM话音信号转换成VoIP话音信号,由多业务IP承载网传送到远端PSTN网络。当IP承载网出现故障而无法正常保护倒换时,本地媒体网关与其它媒体网关以及软交换机之间的心跳检测中断,两端的媒体网关分别通知所辖接的PSTN中断连接并停止计费。因此,多业务IP承载网的倒换速度不应低于NGN系统的倒换速度,否则NGN系统会认为IP承载网出现了严重故障,无法实现倒换,从而中断呼叫连接。目前,主流运营商大多按秒计费,为了保证NGN系统不会因为计费错误而在IP承载网倒换完成之前中断业务,要求IP承载网的保护倒换时间不得超过500ms。
综合业务对承载、运营和计费的需求,以及与其它网络设备配合的诸多因素,多业务IP承载网的理想保护倒换时间应该控制在50-500ms之间。
可靠性保证环节,一个都不能少!
要实现电信级IP运营,就必须在保证高带宽、低时延、低丢包率等服务质量的同时,解决IP承载网的可靠性问题。这涉及到从设备级可靠性保证,到局部网络级可靠性保证,再到全网级可靠性保证的每一个环节。
1994年,VoIP技术出现,标志着传统电信业务在新型分组交换网络上运营的时代拉开序幕;1998年,DiffServ模型出现,运营商开始对VoIP业务与Internet业务提供区分服务,从而使对时延敏感、QoS需求高的VoIP业务进入实用阶段;2002年开始,多业务IP承载网进入高速发展的黄金阶段,MPLS技术与传统的IP分组技术结合,引入了MPLS TE技术,使传统的IP分组网具备了电信级的可管理性,同时业务的承载方式也更加灵活,包括IP报文、MPLS,甚至可以对跨越不同AS的业务提供统一的端到端承载。
与此同时,多业务IP承载网的可运营还表现在可靠性方面的进展,集中表现在设备接点、局部网络和整个网络的各个环节。
设备节点可靠性
网络设备是组成多业务IP承载网的基本节点,其可靠性是整网可靠性的基础。
主流网络设备的关键部件,包括主控单元、交换单元、电源、制冷系统等,大多采用热备份冗余设计,这是保证电信级IP承载网可靠性的最基本要求。
接口、线路卡的快速故障感知和倒换功能同样非常重要。由于传统的Ethernet接口承载的纯数据业务对时延不敏感,因此普遍未采用特别的故障检测技术,接口故障的探测时间在1秒级别,这显然不能满足VoIP等实时电信业务的要求。于是,业界纷纷推出BFD、OAM等快速检测机制,通过与线路卡控制部分联动,使接口或链路故障的感知时间小于50ms,目前这些机制的标准化和局部技术细节正在完善之中。
在网络运营过程中,即使主控单元采用了冗余备份技术,在主控单元倒换期间,由于相邻的网络设备会中断原有的连接关系,导致数据包无法继续转发,从而引起业务中断。于是,NSF-GR联动、NSR等技术陆续出现,这些技术在主控单元倒换期间,继续维持邻居连接状态和报文转发,进而保持业务转发不中断。
局部网络可靠性
多业务IP承载网分为接入层、汇聚层、核心层,通过在不同层实施局部的可靠性策略,可以分段保证网络的可靠性。相对网络节点设备的可靠性,这一扩展技术可以在不大幅度提高对网络设备要求的情况下,显著提高业务的可靠性。
在接入层,推荐采用冗余备份或负载分担接入策略,将业务系统设备(如媒体网关、CE设备)双归接入到两台PE设备上,同时还可以启用VRRP、RSTP等辅助技术,实现快速保护倒换。如果条件有限,无法设置两台PE设备进行冗余接入,至少也应该使业务系统双归接入到同一台PE设备的两块不同接口板上。
在汇聚层和核心层,推荐采用双节点冗余备份策略,当某节点发生故障时,备份节点可以保证业务不间断转发。同时,建议链路本身也采用冗余策略,例如可通过接口绑定技术提高接口的总带宽,减少链路拥塞,并提供捆绑组内接口互相备份的保护功能。
对于核心层的链路连接,推荐采用POS接口进行Full Mesh连接。POS接口具有类似SDH的快速故障检测机制,而Full Mesh连接方式可以保证任何单链路发生故障时,由于流量迂回而增加的网络跳数不超过一跳。另外,这种方式还可以保证核心层的流量不从汇聚层或接入层迂回,从而可避免由此而产生的巨大流量对汇聚层或接入层产生冲击,避免网络出现拥塞甚至不可用。
对于MPLS承载方式,一种流行的方案是采用MPLS FRR技术,通过预先备份的MPLS Tunnel,逐段对MPLS TE主用LSP上的节点和链路进行保护。借助BFD技术的快速故障检测能力,可以使MPLS FRR的保护倒换时间不超过50ms。
整体网络可靠性
无论是设备节点的可靠性技术还是局部网络的可靠性技术,其理念都是通过提高网络的局部可靠性来降低网络故障对业务的影响,并以此来减小业务不可用的概率。相对而言,整网可靠性则是针对业务本身的端到端保护,全程保证多业务IP承载网业务的可靠性。
在使用IP报文承载业务时,通常采用ECMP技术进行业务保护。但是,传统的IGP ECMP存在一个问题,即连接故障是由IGP协议检测,收敛速度通常为秒级,这显然不适应承载电信级业务的要求。于是出现了IGP FC增强技术,可将故障倒换时间控制在几百毫秒以内。此外,各种策略路由技术也能够提高整网级的保护倒换能力。
在使用MPLS承载业务时,通常可以采用端到端的MPLS TE和MPLS FRR技术进行业务保护。MPLS TE使用显示路由,可以根据网络拓扑和业务分布情况,从整网范围控制业务的转发路径。而MPLS FRR技术则通过预先设置的Tunnel对MPLE TE的主用LSP进行保护,当主用LSP出现故障时,分段的BFP能够快速检测到故障,并触发相应节点或链路的保护Tunnel生效,整个保护时间小于200ms,可保证LSP不被删除,业务不中断。这种方案具有非常强的保护能力,但由于需要人工参与,扩展性较差,因此适用于小规模网络,而不适用于大规模网络。
华为个性化保障体系
华为公司长期关注对多业务IP承载网可靠性的研究,推出了具有特色的个性化系列解决方案,通过建立不同层次的可靠性体系,为全网范围的电信级业务提供无缝的高可靠性保证。
业务接入可靠性体系
对于业务系统设备,华为推荐采用二层接入方式,配合增强型VRRP技术,实现单一网络双节点的业务接入。
图1 MGW采用双平面方式接入
以典型的媒体网关设备接入为例。如图1所示,两台媒体网关(MGW)双归接入到位于同一机房的两台PE设备上。通过具有二层桥接功能的TSR作为PE设备,使MGW通过2层桥接方式接入PE。这样,PE在用户接入侧采用二层桥接方式,在网络上行侧采用三层转发,接入侧故障不会扩散到网络侧,从而实现了局部接入与整体网络之间的故障隔离。
两台PE设备之间启用VRRP协议,对二层接入业务进行自动保护倒换。由于VRRP技术的倒换时间超过3秒,因此华为推荐启用增强型E-VRRP协议,采用BFD或者OAM快速故障检测技术,联动VRRP倒换机能,将接入系统的保护倒换时间控制在500ms以内。
实践表明,这种业务接入方式非常适用于IP承载网接入电信级业务。首先,在业务接入的灵活性方面,这种方式既可针对特定流量在特定的逻辑层接入,提供冗余备份功能,并可根据流量特性进行优化,保证业务的承载质量;同时这种方式也可针对总体流量,实现负载分担接入,提高整网运行效率。第二,在绝大多数情况下,双节点间的业务不会互相渗透,网络结构清晰,业务承载主体明确,便于管理。第三,在极端情况下,流量可通过另一平面迂回,保证业务的不中断转发。第四,二层接入方式实现了网络故障的隔离功能,减小了对MGW等业务系统设备的要求,具有良好的兼容性。
VPN可靠性体系
在多业务IP承载网中,直接使用IP包承载业务的情况较少,更多时候是采用MPLS/BGP VPN技术将不同用户、不同类型的业务封装到不同的VPN隧道,以实现高质量、安全和受控的承载。
当前的主流网络保护倒换方案,将关注点集中在核心层节点和链路故障的保护倒换上,而没有考虑对VPN的头端节点即PE设备提供快速、有效的保护。
RFC2547bis定义的MPLS VPN建立方式,规定了由BGP的KeepAlive包来检测PE节点的故障,检测时间大于3秒。之后网络还需要经历端到端的路由收敛、LSP收敛来恢复业务,业务的收敛时间与MPLS VPN内部路由的数量、承载网的跳数密切相关,典型组网的倒换时间需要5秒左右。
为了解决这一问题,华为提出了VPN FRR专利技术。如图2所示,VPN FRR对传统技术进行了改进,允许PE1节点根据匹配策略选择符合条件的VPNv4路由,并在转发表中同时保存优选路由信息和次优路由信息。当PE2节点故障时,PE1节点通过多跳BFD、MPLS OAM等技术感知到PE1与PE2之间的外层隧道不可用(典型组网的端到端故障感知时间小于200ms),并将LSP隧道状态表中的对应标志设置为不可用并下刷到转发引擎。转发引擎使用次优路由的转发信息进行转发,并为报文打上PE3分配的内层标签,沿着PE1与PE3之间的外层LSP隧道交换到PE2,再转发给MGW2,恢复MGW2到MGW1方向的业务,实现PE2节点故障情况下的端到端业务的快速收敛。通过在网络两端的PE节点同时部署VPN FRR技术,可以实现双向VPN业务的高可靠性保护。
图2 VPN FRR的基本原理
采用VPN FRR技术,可使PE节点故障的收敛时间只取决于远端PE故障的检测时间和修改转发引擎中对应公网隧道状态的时间,而与VPN路由的数量无关。值得一提的是,这种技术虽然支持网络端到端的PE节点保护,但它本身是由节点实施的,只需在本地PE节点上进行部署,对其它网络设备完全透明,不会对全网多厂商设备的互连产生任何影响。
端到端的全路径可靠性体系
针对MPLS FRR扩展性能差、部署困难,而其它技术又无法有效地实施端到端的全路径保护的现状,华为公司提出了MPLS OAM Tunnel Protection Group技术。这一技术通过MPLS OAM包,为LSP逻辑接口提供全程的故障快速检测机制,并联动预先备份的LSP进行保护倒换。由于LSP本身是基于业务的端到端承载路径建立的,因此这项技术能够真正地实现针对业务的端到端承载,提供全路径的保护能力。
商用案例遍布全球
包括CMCC、Vodafone、Etisalat等在内的一批主流运营商,与华为合作建设了一批高价值的多业务IP电信承载网。这些商用网络在可靠性方面的卓越表现,为运营商开展多姿多彩的电信业务提供了良好的环境。
中国移动NGN承载网
2004年11月,中国移动选用NetEngine系列高端路由器建成全球最大的NGN承载网,网络覆盖31个省份,服务用户超过2亿。在关闭光传输设备保护倒换功能的测试条件下,中国移动NGN承载网的平均故障恢复时间只有22.7ms,远远小于设计值50ms。在一年半的运营期间,多次传输闪断事件未对业务产生任何影响,完全满足语音级业务的运营要求。
Vodafone罗马尼亚CPN
Vodafone罗马尼亚选用NetEngine系列高端路由器建设电信级多业务IP承载网――CPN(Common Packet Network)。CPN网络采用了VPN FRR、E-VRRP、MPLS OAM Tunnel Protection Group等技术,实测保护倒换时间在50-200ms之间。
Etisalat NGN承载网
Etisalat与华为合作承建NGN承载网,综合承载VoIP、IPTV、企业VPN等业务,并在统一的IP承载网平台上实现与各厂商业务系统设备的平滑接入。在承载多种复杂业务的情况下,实测保护倒换时间在50-500ms之间,完全满足所承载的各类业务的需求。