一、何为双机热备?
所谓的双机热备无非就是以7X24小时不中断的为企业提供服务为目的,各种双机热备的技术很多,那么华为使用了这个共有协议的热备协议——VRRP。
华为的双机热备是通过部署两台或多台防火墙实现热备及负载均衡,两台防火墙相互协同工作,犹如一个更大的防火墙。
华为防火墙的双机热备包含以下两种模式:
- 热备模式:同一时间只有一台防火墙转发数据,其他防火墙不转发,但是会同步会话表及server-map表,当目前工作的防火墙宕机以后,备份防火墙接替转发数据的工作。
- 负载均衡模式:同一时间内,多台防火墙同时转发数据,并且互为备份,每个防火墙既是主设备,也是备用设备。防火墙之间同步会话表及server-map表。
二、VRRP的概念
VRRP(virtual router redundancy protocol,虚拟路由冗余协议),用来解决网关单点故障的路由协议。VRRP可以应用在路由器中提供网关冗余,也可以用在防火墙中做双机热备。
VRRP的相关专业术语介绍:
- VRRP路由器:运行VRRP协议的路由器。
- 虚拟路由器:由一个主用路由器和若干个备用路由器组成一个备份组,一个备份组对客户端提供一个虚拟网关。
- VRID:虚拟路由器标识,用来唯一的标识一个备份组。
- 虚拟IP地址:提供给客户端的网关地址,也是分配给虚拟路由器的IP地址,在所有的VRRP中配置,只有主用设备提供该IP地址的ARP响应。
- 虚拟MAC地址:基于VRID生成的用于VRRP的MAC地址,在客户端通过ARP协议解析网关的MAC地址时,主用路由器将提供该MAC地址。
- IP地址拥有者:若将虚拟路由器的IP地址配置为某个成员物理接口的真实IP地址,那么该成员被称为IP地址拥有者。
- 优先级:用于标识VRRP路由器的优先级,并通过每个VRRP路由器的优先级选举主用设备及备用设备。
- 抢占模式:在抢占模式下,如果备用路由器的优先级高于备份组中其他路由器(包括当前的主用路由器),则将立即成为新的主用路由器。
- 非抢占模式:在非抢占模式下,如果备用路由器的优先级高于备份组中其他路由器(包括当前的主用路由器),也不会立即成为主用路由器,直到下一次公平选举(如重启设备等)。
三、VRRP的两种角色
工作在VRRP模式下的路由器有两种角色,分别是Master路由器和Backup路由器。
- Master路由器:正常情况下由Master路由器负责ARP响应及提供数据包的转发,并且默认每隔1s向其他路由器通告Master路由器当前状态信息。
- Backup路由器:是Master路由器的备用路由器,正常情况下不提供数据包的转发,当master路由器故障时,在所有的Backup路由器中优先级最高的路由器将成为新的master路由器,接替转发数据包的工作,从而保证业务不中断。
四、VRRP的选举流程
VRRP选举master路由器和backup路由器的流程如下:
首先选举优先级高的设备成为master路由器,如果优先级相同,再比较接口的IP地址大小,IP地址大(数值大)的设备将成为master路由器,而备份组中其他的路由器将成为backup路由器。
除非手工将路由器配置为IP地址拥有者(优先级=255),否则VRRP的状态切换总是先经历Backup状态,即使路由器的优先级最高,也需要从backup状态过渡到master状态。此时,backup状态只是一个瞬间的过渡状态。
VRRP中的默认接口优先级为100,取值范围为0~255,其中优先级0是系统保留,优先级255保留给IP地址拥有者,IP地址拥有者不需要配置优先级,默认优先级就是255。
五、VRRP的三个状态
VRRP定义了三种状态,分别如下:
- Initalize状态:刚配置了VRRP时的状态下,在该状态下,不对VRRP报文做任何处理,当接口shutdown或接口故障时也将进入该状态。
- Master状态:当前设备选举成为master路由器时的一种状态,该状态下会转发数据报文,并周期性地发送VRRP通告报文,当接口关闭或设备宕机后将立即切换至Initialize状态。
- Backup状态:当前设备选举成为备用路由器时的一种状态,该状态不转发任何数据报文,只会接收master路由器发送VRRP通告报文,以便检测master路由器是否在正常工作,并且还同步主用设备上的状态信息。
六、通过VGMP统一管理VRRP的状态
在网络设备上使用VRRP和在其他情景下(Linux中的KeepAlived也使用了VRRP协议)使用并不一样,存在的原因如下图:
从上图中可以看出,正常情况下PC去往外部网络的数据包通过备份组1的master设备(FW1)转发,外部网络返回的数据包由备份组2的master设备(FW1)转发,但是当FW1的G1/0/0接口出现故障时,备份组1可以检测到这一故障,并将FW2作为备份组1的master设备。PC发起的数据包由备份组1的master设备(FW2)进行转发,而备份组2的状态没有发生任何改变(FW1的G1/0/1接口正常工作),所以由外部网络返回的流量仍然由备份组2的master设备(FW1转发),显然,因为FW1的接口G1/0/0故障,数据包无法继续转发。
造成这种现象的原因就是两个VRRP备份组独立工作,所以需要使用VGMP(VRRP组管理协议)来实现对VRRP备份组的统一管理,以保证设备在各个备份组中的状态一致。VGMP通过在设备(FW1和FW2)上将所有的备份组(备份组1和备份组2)加入一个VGMP组中进行统一管理,一旦检测到某个备份组(备份组1)中的接口发生变化(如接口进入Initialize状态),VGMP组将自身优先级减2,并重新协商VGMP的Active组和standby组。选举出的Active组将所有的其他备份组(备份组1和备份组2)统一进行状态切换(备份组1和备份组2中的FW2将成为master设备)。
可以简单理解为,VGMP就是用来统一设备在不同备份组中的状态的即可。
VGMP的工作原理如下:
- VGMP组的状态决定了VRRP备份组的状态,即设备的角色(如master和backup)不再通过VRRP报文选举,而是直接通过VGMP统一管理。
- VGMP组的状态通过比较优先级决定,优先级高的VGMP组将成为Active,优先级低的VGMP组将成为standby。
- 默认情况下,VGMP组的优先级为45000。
- VGMP根据组内VRRP备份组的状态自动调整优先级,一旦检测到备份组的状态变成Initialize状态,VGMP组的优先级会自动减2。
- VGMP通过心跳线协商VGMP状态信息。
在加入VGMP组之后,VRRP中的状态标识从master和backup变成了active和standby。
1、VGMP的报文封装
VGMP通过心跳线协商VGMP的状态信息,通过发送VGMP报文实现。VGMP报文有以下两种形式:
如上图中左边的网络图中,心跳线(G1/0/0)和对端的心跳线直连,或者通过二层交换机相连时,发送的报文属于组播报文,报文封装中不携带UDP头部信息,而当心跳线通过三层设备(当然这种情况并不多见)连接时,因为组播报文无法通过三层设备,所以在报文封装中会额外增加一个UDP头部消息,此时发送的报文属于单播。
通过以下命令指定通过接口发送的报文属于哪种类型的封装。
[USG6000V1]hrp interface GigabitEthernet 1/0/0 <!--eNSP模拟器中不支持该配置--> [USG6000V1]hrp interface GigabitEthernet 1/0/0 remote 1.1.1.1 <!--hrp命令用来指定用于心跳链路的接口编号, 1.1.1.1是心跳线对端接口的IP地址,该地址要求路由可达, 带remote参数的命令将封装UDP,并发送单播报文不带remote参数将发送组播报文-->
关于配置VGMP的其他注意事项:
- 加入了VGMP后,心跳线的作用包含状态信息备份(会话表和server-map表)及VGMP状态协商。
- 华为防火墙在默认情况下放行组播流量(如不带remote参数的VGMP报文)禁止单播流量(如带remote参数的VGMP报文),所以如果配置了remote参数,还需要配置local区域和心跳线接口所在的区域之间配置安全策略。
- 配置了VRRP virtual-mac enable的接口不能作为心跳口。
- 如果使用二层接口作为心跳接口,不能直接在二层接口上配置,而是将二层接口加入vlan,在vlan中配置心跳接口。
- eNSPoint模拟器中,即使心跳接口之间相连,也必须配置remote参数,否则无法配置。
2、双机热备的备份方式
双机热备的备份方式包括以下三种:
- 自动备份:该模式下,和双机热备有关的配置只能在主用设备上配置,并自动同步到备用设备中,主用设备自动将状态信息同步到备用设备中。
- 手工批量备份:该模式下,主用设备上所有的配置命令和状态信息,只有在手工执行批量备份命令时才会自动同步到备用设备。该模式主要应用于主设备和备用设备配置不同步,需要立即进行同步的场景。
- 快速备份:该模式下,不同步配置命令,只同步状态信息,在负载均衡方式的双机热备环境中,该默认必须启用,以快速更新状态信息。
各个模式的配置命令如下:
(1)开启双机热备功能:
[USG6000V1]hrp enable HRP_S[USG6000V1] <!--开启双机热备功能后,命令提示符发生变化-->
(2)配置自动备份模式:
HRP_M[USG6000V1]hrp auto-sync HRP_M[USG6000V1]security-policy ( B) <!--开启双机热备后,执行可以同步的命令会有( B)的提示-->
(3)配置手工批量备份模式:
HRP_M<USG6000V1>hrp sync [ config | connection-status ] <!-- 在用户模式下执行该命令,其中config参数表示手工同步命令配置, connection-status参数表示手工同步状态信息。 -->
(4)配置快速备份模式:
HRP_S[USG6000V1]hrp mirror session enable HRP_M[USG6000V1] <!--配置快速备份模式后,开头会变成HRP_M.....-->
3、关于上游或下游设备的选路问题
当双机热备的设备上游或下游是交换机时,是通过VRRP检测接口或设备的状态,但当上游或下游设备是路由器时,VRRP无法正常运行(VRRP依靠组播实现故障切换)。华为防火墙的做法是监控其接口状态,并配置OSPF实现流量切换,通过直接将接口加入VGMP组中,当接口故障时(即使是对端设备故障,本端接口的物理特性也将关闭)VGMP会感知接口状态变化,从而降低VGMP组的优先级,从Active状态切换至standby状态。而之前的standby组将提升为active状态,而处于standby的VGMP组在发布OSPF路由时,会自动将cost值增加65500,通过OSPF的自动收敛,最终将流量引导至active组设备中。
七、配置实例
环境如下(别看上面啰嗦了那么一堆概念,但真正配置起来,简单的很,但是若要排错,还是要理解透彻它的工作原理):
声明:该环境不以实际环境为目的,目的是为了介绍防火墙的双机热备,所以这是一个简化环境。
需求如下:
LSW1和LSW2是二层交换机,FW1、FW2、LSW1、LSW2组成双机热备网络,正常情况下,PC1发起的访问R1的流量通过FW1转发,当FW1出现故障时,在PC1不做任何调整的前提下,可以自动通过FW2转发。
开始配置:
FW1配置如下:
<USG6000V1>sys <!--进入系统视图--> <!--以下是在配置相应接口IP--> [USG6000V1]in g1/0/0 [USG6000V1-GigabitEthernet1/0/0]ip add 10.1.1.101 24 [USG6000V1-GigabitEthernet1/0/0]in g1/0/1 [USG6000V1-GigabitEthernet1/0/1]ip add 172.16.1.1 24 [USG6000V1-GigabitEthernet1/0/1]in g1/0/2 [USG6000V1-GigabitEthernet1/0/2]ip add 192.168.1.101 24 [USG6000V1-GigabitEthernet1/0/2]quit <!--以下是在将接口添加至相应区域--> [USG6000V1]firewall zone trust [USG6000V1-zone-trust]add in g1/0/2 [USG6000V1-zone-trust]firewall zone dmz [USG6000V1-zone-dmz]add in g1/0/1 [USG6000V1-zone-dmz]firewall zone untrust [USG6000V1-zone-untrust]add in g1/0/0 [USG6000V1-zone-untrust]quit <!--以下是设置一个策略,放行本地到dmz区域的流量,以便使VGMP报文通过--> [USG6000V1]security-policy [USG6000V1-policy-security]rule name permit_heat [USG6000V1-policy-security-rule-permit_heat]source-zone local [USG6000V1-policy-security-rule-permit_heat]destination-zone dmz [USG6000V1-policy-security-rule-permit_heat]action permit [USG6000V1-policy-security-rule-permit_heat]quit [USG6000V1-policy-security]quit <!--其实在配置完双机热备再配置该策略也可以,但是为了保险起见,就先配置上这个策略--> <!--以下是在配置VRRP备份组--> [USG6000V1]in g1/0/0 [USG6000V1-GigabitEthernet1/0/0]vrrp vrid 2 virtual-ip 10.1.1.100 active [USG6000V1-GigabitEthernet1/0/0]in g1/0/2 [USG6000V1-GigabitEthernet1/0/2]vrrp vrid 1 virtual-ip 192.168.1.100 active [USG6000V1-GigabitEthernet1/0/2]quit [USG6000V1]hrp in g1/0/1 remote 172.16.1.2 <!--配置心跳接口,指定对端设备--> [USG6000V1]hrp enable <!--启用双机热备--> HRP_S[USG6000V1]hrp auto-sync <!--配置备份方式为自动备份-->
至此,FW1的配置暂时就完成了。开始配置FW2,FW2的配置与FW1的配置类似,就不写注释了(体谅一下我这个懒货)。
FW2配置如下:
<USG6000V1>sys [USG6000V1]in g1/0/0 [USG6000V1-GigabitEthernet1/0/0]ip add 10.1.1.102 24 [USG6000V1-GigabitEthernet1/0/0]in g1/0/1 [USG6000V1-GigabitEthernet1/0/1]ip add 172.16.1.2 24 [USG6000V1-GigabitEthernet1/0/1]in g1/0/2 [USG6000V1-GigabitEthernet1/0/2]ip add 192.168.1.102 24 [USG6000V1-GigabitEthernet1/0/2]quit [USG6000V1]firewall zone trust [USG6000V1-zone-trust]add in g1/0/2 [USG6000V1-zone-trust]firewall zone untrust [USG6000V1-zone-untrust]add in g1/0/0 [USG6000V1-zone-untrust]firewall zone dmz [USG6000V1-zone-dmz]add in g1/0/1 [USG6000V1-zone-dmz]quit [USG6000V1]security-policy [USG6000V1-policy-security]rule name permit_heat [USG6000V1-policy-security-rule-permit_heat]source-zone local [USG6000V1-policy-security-rule-permit_heat]destination-zone dmz [USG6000V1-policy-security-rule-permit_heat]action permit [USG6000V1-policy-security-rule-permit_heat]quit [USG6000V1-policy-security]quit [USG6000V1]in g1/0/0 [USG6000V1-GigabitEthernet1/0/0]vrrp vrid 2 virtual-ip 10.1.1.100 standby [USG6000V1-GigabitEthernet1/0/0]in g1/0/2 [USG6000V1-GigabitEthernet1/0/2]vrrp vrid 1 virtual-ip 192.168.1.100 standby [USG6000V1-GigabitEthernet1/0/2]quit [USG6000V1]hrp in g1/0/1 remote 172.16.1.1 [USG6000V1]hrp enable HRP_S[USG6000V1]hrp auto-sync
配置至此,双机热备状态已经同步了,现在FW2为备份状态,多数配置已经无法在FW2上进行,只能在FW1上配置后,自动同步到FW2,那么现在在FW1配置一条策略,以便允许trust区域访问untrust区域,并且在FW2防火墙设备上查看是否同步到这条策略。
FW1配置如下:
<!--可以看到每条命令后面自动跟一个“( B),表示该命令可以同步。”--> HRP_M[USG6000V1]security-policy ( B) HRP_M[USG6000V1-policy-security]rule name test1 ( B) HRP_M[USG6000V1-policy-security-rule-test1]source-zone trust ( B) HRP_M[USG6000V1-policy-security-rule-test1]destination-zone untrust ( B) HRP_M[USG6000V1-policy-security-rule-test1]action permit ( B) HRP_M[USG6000V1-policy-security-rule-test1]quit HRP_M[USG6000V1-policy-security]quit
FW2设备上查看是否有FW1创建的策略:
HRP_S[USG6000V1]security-policy <!--抱歉,备份设备已经进不去安全策略模式了--> Error: The device is in HRP standby state, so this command can not be executed. HRP_S[USG6000V1]dis current-configuration <!--别担心,还可以查看当前所有策略嘛--> ...................... <!--省略部分内容--> security-policy rule name permit_heat source-zone local destination-zone dmz action permit rule name test1 <!--可以看到刚才创建的名为test1策略已经同步过来了--> source-zone trust destination-zone untrust action permit
配置R1路由器及PC及的IP地址,并ping通。
R1路由器配置如下(R1路由器相当于运营商的公网上的路由器了,这里只是为了模拟一个这样的环境):
<Huawei>sys [Huawei]in g0/0/0 [Huawei-GigabitEthernet0/0/0]ip add 10.1.1.1 24 [Huawei-GigabitEthernet0/0/0]quit [Huawei]ip route-static 192.168.1.0 24 10.1.1.100 <!-- 添加一条去往内网的路由,在实际环境中,可是不会有这条路由的哦, 实际中一般会将内网的地址映射为和该路由器同一网段的公网IP。 -->
PC1的IP地址配置如下:
PC1和R1路由器进行ping测试(最好在命令最后加“-t”选项,进行持续ping,以便查看会话表,否则会话表会老化,查不到相应数据):
在FW1查看会话表:
HRP_M[USG6000V1]dis firewall session table Current Total Sessions : 24 icmp ×××: public --> public 192.168.1.1:17547 --> 10.1.1.1:2048 icmp ×××: public --> public 192.168.1.1:18059 --> 10.1.1.1:2048 icmp ×××: public --> public 192.168.1.1:14987 --> 10.1.1.1:2048
在FW2查看会话表:
HRP_S[USG6000V1]dis firew se ta Current Total Sessions : 26 icmp ×××: public --> public Remote 192.168.1.1:9099 --> 10.1.1.1:2048 icmp ×××: public --> public Remote 192.168.1.1:9611 --> 10.1.1.1:2048 icmp ×××: public --> public Remote 192.168.1.1:10891 --> 10.1.1.1:2048 icmp ×××: public --> public Remote 192.168.1.1:12171 --> 10.1.1.1:2048
可以看出两个防火墙上的会话表内容都是不一样的(但不会影响故障切换)。
那么现在就可以进行故障切换的验证咯!
模拟FW1设备故障(关闭FW1的任意一个接口即可,注:此时PC1还在持续pingR1,才可以看到故障切换的效果):
HRP_M[USG6000V1]in g1/0/0 ( B) HRP_M[USG6000V1-GigabitEthernet1/0/0]shutdown <!--“shutdown”命令系统是不会同步到对端防火墙的,要不然就没得玩了, 你看它后面都没有 ( B)-->
在关闭接口的后的一两秒钟,可以看到PC1丢了一个包,便又恢复正常了,说明故障切换成功。如下:
配置到此结束,下面是关于双机热备的一些查询命令:
<!--查看双机热备的状态信息,主要看是Role和peer的信息, Role表示本端,peer表示对端。 Running priority表示本端的优先级,peer表示对端的优先级。 --> HRP_S[USG6000V1]display hrp state Role: standby, peer: active (should be "active-standby") Running priority: 44998, peer: 45000 ...................... <!--省略部分内容--> HRP_S[USG6000V1]dis hrp interface <!--查看心跳接口状态--> GigabitEthernet1/0/1 : running
八、总结
1、两台防火墙用于心跳线的接口需要加入相同的安全区域。
2、两台防火墙用于心跳线的接口的编号必须一致,如都是G1/0/1。
3、建议用于双机热备的两台防火墙采用相同的型号,相同的VRP版本。连接同一个设备(路由器或交换机)都使用同一个接口编号。
4、当热备组中的设备坏掉后,买来新的设备进行加入热备组时,在配置时,原来坏掉的那台设备在VGMP中配置的是active,哪怕现在备份组中有设备处于active状态,新买来的设备必须也配置active状态,否则无法协商。如在上面环境中,FW1配置时配置为active状态,然后FW1设备down掉了,此时FW2由standby状态变为active状态,那么,此时再买来一台FW3想要重新加入备份组,在配置时,须配置为active。如该条命令:vrrp vrid 1 virtual-ip 192.168.1.100 active。不过还有个弊端,就是配置后,新买的FW3变成了active状态,但是FW2上有很多安全策略及会话表就同步不过来了,因为只有备份设备去同步活跃设备,活跃设备是不会去同步备份设备的状态的,所以,更省事的方法,还是先将FW2重新使用vrrp vrid 1 virtual-ip 192.168.1.100 active这条命令,将原始的状态变为active状态,然后在配置FW3时,直接将FW3配置为standby状态,便可同步成功。