网络工程 - Cisco ASA 5512 (OS 9.1(1)) HA 故障切换问题 - 吾爱随笔录

我在活动/备用 HA 故障转移集群中有 2 台 cisco ASA 5512 设备（安全性加许可证）（我已测试有状态和无状态故障转移均未成功）。

两个单元都连接（通过交换路径）到启用 VRRP 的网关，该网关由我们的托管中心提供商在安装单元的地方设置。

在给定时间，只有一个单元可以以稳定的方式处于活动状态（并保持活动状态） - 这意味着一旦我尝试手动触发从当前活动单元到备用单元的故障转移，备用单元（获得 ACTIVE角色）将无法路由流量，并将在几分钟内自动回退到备用角色 - 备用单元无法稳定地保持活动状态（即使 L3 连接应该可用，根据托管中心声明）。

这种情况发生在有状态的活动/备用故障转移以及无状态的活动/备用故障转移中。

还有一点很有意思的是，这2台机器都配置了2个公网IP，分别是XXX1和XXX2。

在时间 t0（在触发手动故障转移之前）-> 两个公共 IP 都可以访问并且主单元处于活动状态

在时间 t1 -> 手动故障转移被触发并且 XXX1 不再可达（分配给 SECONDARY 单元现在处于活动状态） -> XXX2 被分配给 PRIMARY 单元并且 100 % 可达

在时间 t2 -> 集群意识到无法通过 SECONDARY 单元路由流量并回退到前一种情况（PRIMARY 单元为 ACTIVE，SECONDARY 单元为 STANDBY）-> XXX2 不再可达；XXX1 再次可达；

在时间 t2 + 大约 30 分钟 -> XXX2 再次变为可达。

外部接口的 2 台设备通过 VRRP 设置连接到同一网段。根据托管站点的说法，没有关于上游 L2 端口连接的特定 L2 设置。

看起来集群只有在连接到启用 VRRP 的 2 个端口之一时才能路由流量（以稳定的方式，即设备永久保持“活动”状态） - 无论哪个 ASA，上述行为都会发生连接到那个端口，并且始终遵循相同的模式。

托管中心已检查 VRRP 设置（以及 L2/交换路径），但未发现任何可能证明此行为合理的重大问题。

在有状态故障转移的情况下，我还在 2 个 ASA 之间交换的 LU 更新中观察到几个“路由会话”错误：

在初级 ASA 上：

ASA-fw# show failover<br/>
Failover On<br/>
Failover unit Primary<br/>
Failover LAN Interface: failover GigabitEthernet0/5 (up)<br/>
Unit Poll frequency 3 seconds, holdtime 10 seconds<br/>
Interface Poll frequency 3 seconds, holdtime 15 seconds<br/>
Interface Policy 1<br/>
Monitored Interfaces 3 of 114 maximum<br/>
failover replication http<br/>
Version: Ours 9.1(1), Mate 9.1(1)<br/>
Last Failover at: 09:14:07 UTC Jan 25 2016<br/>
        This host: Primary - Active<br/>
                Active time: 415235 (sec)<br/>
                slot 0: ASA5512 hw/sw rev (1.0/9.1(1)) status (Up Sys)<br/>
                  Interface outside (X.X.X.195): Normal (Monitored)<br/>
                  Interface inside (192.168.1.1): Normal (Monitored)<br/>
                  Interface management (192.168.99.1): Normal (Monitored)<br/>
        Other host: Secondary - Standby Ready<br/>
                Active time: 3090024 (sec)<br/>
                slot 0: ASA5512 hw/sw rev (1.0/9.1(1)) status (Up Sys)<br/>
                  Interface outside (X.X.X.200): Normal (Monitored)<br/>
                  Interface inside (192.168.1.3): Normal (Monitored)<br/>
                  Interface management (192.168.99.2): Normal (Monitored)<br/>
<br/>
Stateful Failover Logical Update Statistics<br/>
        Link : failover GigabitEthernet0/5 (up)<br/>
        Stateful Obj    xmit       xerr       rcv        rerr<br/>
        General         1518905    0          56441      9<br/>
        sys cmd         54791      0          54790      0<br/>
        up time         0          0          0          0<br/>
        RPC services    0          0          0          0<br/>
        TCP conn        1126177    0          156        0<br/>
        UDP conn        140986     0          889        0<br/>
        ARP tbl         190094     0          606        0<br/>
        Xlate_Timeout   0          0          0          0<br/>
        IPv6 ND tbl     0          0          0          0<br/>
        VPN IKEv1 SA    4          0          0          0<br/>
        VPN IKEv1 P2    8          0          0          0<br/>
        VPN IKEv2 SA    0          0          0          0<br/>
        VPN IKEv2 P2    0          0          0          0<br/>
        VPN CTCP upd    0          0          0          0<br/>
        VPN SDI upd     0          0          0          0<br/>
        VPN DHCP upd    0          0          0          0<br/>
        SIP Session     0          0          0          0<br/>
        Route Session   6842       0          0          9<br/>
        User-Identity   3          0          0          0<br/>
        CTS SGTNAME     0          0          0          0<br/>
        CTS PAC         0          0          0          0<br/>
        TrustSec-SXP    0          0          0          0<br/>
        IPv6 Route      0          0          0          0<br/>
<br/>
        Logical Update Queue Information<br/>
                        Cur     Max     Total<br/>
        Recv Q:         0       12      135522<br/>
        Xmit Q:         0       31      1717200<br/>
<br/>
ASA-fw#<br/>

在二级 ASA 上：

ASA-fw# show failover<br/>
Failover On<br/>
Failover unit Secondary<br/>
Failover LAN Interface: failover GigabitEthernet0/5 (up)<br/>
Unit Poll frequency 3 seconds, holdtime 10 seconds<br/>
Interface Poll frequency 3 seconds, holdtime 15 seconds<br/>
Interface Policy 1<br/>
Monitored Interfaces 3 of 114 maximum<br/>
failover replication http<br/>
Version: Ours 9.1(1), Mate 9.1(1)<br/>
Last Failover at: 09:14:07 UTC Jan 25 2016<br/>
        This host: Secondary - Standby Ready<br/>
                Active time: 3090024 (sec)<br/>
                slot 0: ASA5512 hw/sw rev (1.0/9.1(1)) status (Up Sys)<br/>
                  Interface outside (X.X.X.200): Normal (Monitored)<br/>
                  Interface inside (192.168.1.3): Normal (Monitored)<br/>
                  Interface management (192.168.99.2): Normal (Monitored)<br/>
        Other host: Primary - Active<br/>
                Active time: 415193 (sec)<br/>
                slot 0: ASA5512 hw/sw rev (1.0/9.1(1)) status (Up Sys)<br/>
                  Interface outside (X.X.X.195): Normal (Monitored)<br/>
                  Interface inside (192.168.1.1): Normal (Monitored)<br/>
                  Interface management (192.168.99.1): Normal (Monitored)<br/>

Stateful Failover Logical Update Statistics<br/>
        Link : failover GigabitEthernet0/5 (up)<br/>
        Stateful Obj    xmit       xerr       rcv        rerr<br/>
        General         408964     0          1527527    6852<br/>
        sys cmd         69155      0          69153      0<br/>
        up time         0          0          0          0<br/>
        RPC services    0          0          0          0<br/>
        TCP conn        258657     0          1127204    0<br/>
        UDP conn        34851      0          140988     0<br/>
        ARP tbl         44206      0          190171     0<br/>
        Xlate_Timeout   0          0          0          0<br/>
        IPv6 ND tbl     0          0          0          0<br/>
        VPN IKEv1 SA    30         0          4          0<br/>
        VPN IKEv1 P2    8          0          4          0<br/>
        VPN IKEv2 SA    0          0          0          0<br/>
        VPN IKEv2 P2    0          0          0          0<br/>
        VPN CTCP upd    0          0          0          0<br/>
        VPN SDI upd     0          0          0          0<br/>
        VPN DHCP upd    0          0          0          0<br/>
        SIP Session     0          0          0          0<br/>
        Route Session   2010       0          0          6852<br/>
        User-Identity   47         0          3          0<br/>
        CTS SGTNAME     0          0          0          0<br/>
        CTS PAC         0          0          0          0<br/>
        TrustSec-SXP    0          0          0          0<br/>
        IPv6 Route      0          0          0          0<br/>
<br/>
        Logical Update Queue Information<br/>
                        Cur     Max     Total<br/>
        Recv Q:         0       20      1811827<br/>
        Xmit Q:         0       30      466771<br/>
<br/>
ASA-fw#<br/>

我想知道是否有一些调试可以帮助我解决此问题，并可能有助于识别与托管中心相关的错误配置问题。

另外，我想询问有关“Route Session”条目的详细信息以及该字段中几个 xerr/rerr 的影响。

最后，这可能是一个软件错误吗？我在 cisco 的网站上阅读了 9.1(1) 版本下 ASA 集群的几个错误：

http://www.cisco.com/c/en/us/td/docs/security/asa/asa91/release/notes/asarn91.html