奇怪的问题-在可变时间段后无法连接到站点/服务器

网络工程 联网 戴尔
2022-02-14 02:38:54

我迫切需要帮助。我有一个奇怪的问题,我没有成功解决。请参阅下面的相关背景故事和详细信息。

背景
这一切都始于大约两个月前。两个月前,该网络由两台计算机组成,每天使用 8 小时,另外三台计算机在 12Mbps 互联网连接上的使用频率要低得多,该连接在客户端之间平均分配连接。基本的邮件/网页浏览。没有视频流可言。我们确实有 5 部 Cisco VOIP 电话,但它们的使用频率并不高。

从那时起,我们添加了一个服务器/域控制器,另外三台计算机每天使用 8 小时。这三台新电脑是从 Dell Business 购买的,并且都运行 Win 10 Pro。没有进行网络硬件更改(路由器/交换机)。然后将网络切换到域网络,除两台运行 Win 10 Home 的个人计算机外,所有计算机都已注册到域中,这些计算机目前已不再使用。

发现问题
我们没有一次得到所有新的戴尔机器。首先我们只买了一个。一周内,用户有时会报告无法在 Outlook 中发送/接收电子邮件。当我解决这个问题时,我注意到计算机无法连接到 IMAP 或 SMTP 服务器,或者 webmail 登录,或者服务器的 IP 地址。无法在 Outlook 中连接,无法在浏览器中连接到 webmail 登录,无法在 CMD 或 powershell 中 ping 服务器,什么都没有。但是重新启动立即解决了这个问题。我尝试在 Outlook 中设置不同的 IMAP 帐户,但该帐户(GSuite Business 帐户)没有出现问题。

我尝试禁用防火墙,将 IP 添加到白名单。没有喜悦。最后,我重新安装了网络适配器驱动程序——没有。然后我在 Windows Mail 中设置了帐户——尽管它发生的频率较低,但它仍然发生了。重新启动立即修复它,但我找不到原因。我什至打电话给我们的邮件提供商,以为这台机器可能被暂时封锁了,但他们声称这是不可能的。事件查看器中也没有与该问题相关的内容。在这个问题接近尾声时,我选择在进一步排除故障之前重新安装 Windows。完全重新安装后,问题又回来了。在那个时候,其他计算机都没有遇到这个问题。

问题继续存在
此后不久,我们又购买了两台戴尔 PC。从第一个和另一个不同的模型。两者都有相同的问题,但问题也扩大了。一段时间后我们无法连接的不仅仅是邮件服务器,还有 McMaster Carr、Yahoo Mail 等网站。看起来好像是在相关机器上经常使用/访问的任何站点或服务器。起初我以为是操作系统问题,但我们现场有另一台 Win10 Pro 机器没有这个问题。我们还有几台 Win10 Home 机器(员工拥有的个人电脑)没有这个问题,另外还有两台 Win 7 Pro 机器,也没有这个问题。它仅适用于运行 Win 10 Pro 的新戴尔 PC。

故障排除工作和结果
我远程维护此网络,因此无法通过网络启动进入安全模式以进一步排除故障,但这是我本周晚些时候在现场时要尝试的下一件事。该问题似乎不会在设定的时间间隔内发生。有时事情会持续好几个小时,然后停止,有时在启动问题开始后 10 分钟。我也想等待问题发生,然后尝试将计算机连接到完全不同的网络。由于只有一台机器具有无线适配器,因此无法尝试此操作,但是当我在现场时,我的目标是等待问题发生,将其连接到手机上的 WiFi 热点,然后看看问题是否仍然存在。

笔记
另一个潜在的重要注意事项 - 该业务的互联网不是 DSL 或电缆。这些服务在此位置不可用;尽管事实上这家公司并不在一个特别偏远的地区。我们提供的服务是由市政府提供的固定无线系统。它很慢而且有问题。例如,我已经尝试设置新路由器 4 周,但他们一直无法让我们购买的新路由器进行连接。我RMA了第一个,认为这是一个路由器问题。新路由器可以将主机名解析为 IP,但无法连接到互联网或 ping IP。很奇怪。我们现在正在使用 Cisco 硬件,但我正在考虑切换到 Ubiquiti,这取决于它如何摆脱。只需确保 Ubiquiti 路由器提供 L2TP VPN。


我尝试过的清单:

  • 禁用所有戴尔 OEM 软件

  • 禁用防火墙

  • 在防火墙中添加服务器 IP 和主机名以允许列表

  • 将服务器 IP 和主机名添加到白名单

  • 重新安装网络适配器驱动程序

  • 重新安装 Windows(OEM 版 - 我没有其他免费许可证)

  • 在 Outlook 中设置一个 IMAP Gmail 帐户并不断点击发送/接收 30 分钟

    本周我下次到现场时要尝试的内容列表

  • 带网络的安全模式,以查看此诊断模式中是否存在问题

  • 在问题发生期间更改网络而无需重新启动

  • 交换路由器和交换机

编辑:每个 COWN 请求的附加详细信息:

发生此问题时,仅禁用对相关站点/服务器的访问。我们不会失去机器上的互联网访问权限。我可以ping DC 和路由器,以及其他机器。其他网站/服务器仍然可以毫无问题地访问。

该问题似乎不是由软件或驱动程序引起的,而是三台受影响的计算机运行完全不同的软件。唯一常见的线程是:戴尔机器、Win 10 Pro。

我们使用的是 Cisco C881 路由器和 Cisco SG300-38P 交换机。除了新的戴尔之外,网络上没有其他机器有这个问题。
DHCP 由我们的 Windows A/D DC 提供。我们的路由器禁用了 DHCP。

在此处输入图像描述

1个回答

(我不确定您的网络知识水平,如果我说得太简单了,请原谅我)。

根据我的经验,当出现这样的间歇性问题时,通常是由 IP 冲突引起的(由于静态 IP 配置错误或 DHCP 问题)。我的意思是两台或多台计算机同时尝试为其接口使用相同的 IP。

例如,计算机 A 使用 10.0.0.5 的 IP,而第二台计算机 B 上线并出于某种原因尝试使用相同的 IP。发生这种情况时,路由器开始将要发送到计算机 A 的流量发送到计算机 B。计算机 A 不断向路由器发送数据包,但路由器会将回复发送到计算机 B。本质上,计算机 A 永远不会收到回复数据包,它会查看计算机 A 的 Internet 连接失败。同时,计算机 B 可以正常访问 Internet,当它收到计算机 A 的返回数据包时,它会忽略它们。最终计算机 A 将为重复的 IP 重新 ARP,现在 A 可以正常工作,B 将无法建立连接。这种情况一直持续到重新启动一台机器,通过 DHCP 获得一个新的 IP,然后将罐子踢到路上,直到下一次冲突。

我会提出这样一个理论,即您以前让 DHCP 由路由器处理(尽管这是一个假设),并且一旦您设置了新的域控制器(我假设它是 Microsoft AD 域控制器),域控制器也在运行DHCP 服务器。如果这是真的,那么当客户端发出 DHCP 请求时,它们将从两台服务器以及它首先使用的服务器中获得答案。由于路由器 DHCP 和 AD DHCP 没有相互通信,它们很可能为客户端提供相同的 IP,从而导致冲突。同样,我在这里为这个理论做了一些假设,因为从你的帖子中并不清楚。如果是这种情况,那么修复很简单:禁用路由器上的 DHCP 服务器并让 AD 处理 DHCP(AD 需要它才能正常工作)。

要真正解决此类问题,还需要更多信息。如果以上不是您的问题,那么我建议您至少收集以下信息:

你用的是什么路由器/防火墙?什么是面向外部/互联网的 IP、子网/网络掩码和默认网关?它的内部 IP 和子网是什么?

发生此问题时,受害机器是失去所有网络访问权限还是仅失去 Internet 访问权限?发生这种情况时,您可以 ping 路由器的内部 IP 吗?你能在同一个网络上ping另一个IP吗?4.2.2.1等互联网上的IP怎么样?你能解析像 google.com 这样的 DNS 条目吗?

IP 是静态分配的还是通过 DHCP 分配的?检查每台计算机。

机器是否插入集线器或交换机?是托管的还是非托管的?第 2 层或第 3 层集线器/交换机?它们有多少以及如何相互连接?

网络上的任何其他设备,如打印机、智能设备、无线 AP?

就个人而言,更换设备、重新安装操作系统和重新启动通常并不是真正的故障排除,而且通常只会浪费您的时间,因为问题尚未解决并且很可能会再次出现。我感谢您远程执行此操作,因此更难进行故障排除,但一次好的故障排除会话将为您节省数周的间歇性问题。远程访问路由器,尤其是 CLI 将为您提供很好的服务。Wireshark 是你的朋友。