今天分享一个小的但是相当普遍的案例:用户是一家小型的奶茶店,没有装路由器,仅仅是将光猫配置为路由模式提供无线/有线网络接入使用。拓扑如下:
光猫—傻瓜式交换机 ))(( IPC和手机等终端
近期店里装了几个IPC(摄像头)接入无线,店员发现用着用着突然就断网了,所以寻求帮助看看是什么原因。在没接入IPC之前,店内的网络倒是没啥问题。
一般来讲,针对这种最基本的上网问题,我们基础排查如下:
DNS解析域名是否正常,以确定DNS服务器是否正常;
ping网关(光猫)是否正常,以确定本地网关是否故障
ping某公网IP是否能正常通,以确定运营商链路是否正常;
第一步:确认DNS解析域名是否正常
用Windows的CMD相关命令为:
nslookup域名
测试情况如下:

显然异常时DNS没法打开,更换DNS服务器为114.114.114.114也没用:

第二步:分别ping网关和外网
分别测试ping网关和公网IP,发现都是不通的,这里我偷懒,就不继续赘述贴图了:
第三步:抓取数据流分析
这里直接分析原因吧,异常的时候确实终端DNS请求没响应,终端TCP向公网发起连接也是不成功的:


为了确认复现情况,我们在光猫上联口加了个交换机持续监控,抓取异常时间点前后的报文分析,发现如下:

可以明确定位:
光猫出口突然上行流后(单位换算为16Mbps),前端的DNS响应基本就没有了。所以能大胆的猜到,前端监控到上行流突发异常后,运营商便将链路封掉了,也就是封杀PCDN的手段。
然后我们进一步明确:这些突发上行流是门店新增的IPC定期向云端上传存储视频出现的,是符合预期的行为。
与运营商沟通解决;
尝试减小IPC数量或码流,以尝试上行的流量低于前端链路的监控阈值。
发表回复