网络冗余配置教程:让服务器始终在线不掉链

为什么需要网络冗余

你有没有遇到过这种情况:公司网站突然打不开,客服电话被打爆,一查发现是主线路断了。等运营商来修,两小时过去了,损失已经不小。其实在很多中小型企业机房里,这种单点故障太常见了。网络冗余就是为了解决这个问题——当一条网络路径出问题时,另一条能立刻顶上,用户几乎感觉不到中断。

比如一家电商公司做促销,流量猛增的同时,主ISP线路因为光缆被挖断导致服务瘫痪。如果提前做了双线路冗余,系统自动切换到备用线路,订单照样进来,不会影响转化率。

常见的冗余方式有哪些

最基础的是双WAN出口,也就是接两家不同的运营商,比如电信+联通。通过路由器或防火墙设备做策略路由和健康检查,一旦检测到主线路不通,流量马上切到备线。

更进一步的做法是使用VRRP(虚拟路由冗余协议),在多个三层设备之间建立虚拟网关IP。实际工作中,我们给两台核心交换机都配置相同的虚拟IP作为默认网关,主机只认这个IP。哪台设备工作正常,它就接管转发任务。

动手配置VRRP实例

假设你有两台华为交换机SwitchA和SwitchB,连接在同一局域网中,想为192.168.1.0/24网段提供冗余网关。

在SwitchA上执行:

interface Vlanif10
ip address 192.168.1.2 255.255.255.0
vrrp vrid 1 virtual-ip 192.168.1.1
vrrp vrid 1 priority 120
vrrp vrid 1 preempt-mode timer delay 5

在SwitchB上执行:

interface Vlanif10
ip address 192.168.1.3 255.255.255.0
vrrp vrid 1 virtual-ip 192.168.1.1
vrrp vrid 1 priority 100

这里192.168.1.1是对外公布的网关地址。SwitchA优先级高,正常情况下是主设备。当它宕机或链路断开,SwitchB会在几秒内接管,继续响应ARP请求并转发数据包。

结合链路探测提升可靠性

光看本地接口状态不够准。有时候接口灯还亮着,但外网已经不通了。这时候应该加入外部探测机制。

以H3C设备为例,可以设置监测目标IP(如8.8.8.8)的可达性:

track 1 interface GigabitEthernet0/0/1 state
!
ip route-static 0.0.0.0 0.0.0.0 202.101.1.1 track 1

再把这个track关联到VRRP中:

vrrp vrid 1 track 1 reduced 30

意思是如果GigabitEthernet0/0/1链路失效,本端VRRP优先级自动减30。原先是120,现在变成90,低于备机的100,于是主动让出主控权。

别忘了DNS和应用层的冗余

网络通了,服务不一定能访问。举个例子,某次我们做完链路切换测试,ping和traceroute都正常,但网页打不开。排查发现是内部DNS写死了某个公网IP,而那个IP对应的服务器没做负载均衡,刚好挂了。所以光做网络层冗余还不够,关键服务最好也部署多实例,并配合DNS轮询或多线路解析。

像Nginx反向代理集群、数据库主从切换这些,虽然不属于网络配置范畴,但在整体高可用方案中必须考虑进去。否则就算网络畅通,业务还是跑不起来。

日常维护要点

配置完不是就万事大吉了。每季度至少做一次切换演练,模拟主设备断电或拔线,观察备用设备是否能在10秒内接管。同时查看日志确认没有脑裂现象。

另外建议开启SNMP监控,把VRRP状态、接口流量、切换次数纳入监控平台。一旦发生主备切换,自动发告警邮件或短信提醒运维人员,及时跟进原因。