定位网络瞬断故障


【信息时间: 2013-08-27   阅读次数: 【我要打印】【关闭】

 

定位网络瞬断故障

严顺斌

导读:随着网络的普及,网络故障也层出不穷,如出现直接断网、ARP病毒之类、广播等方面故障通过抓包等还好解决,但是遇到瞬断、丢包等网络不稳定现象就不太好解决了,到底是用户还是运营商出现故障了呢,本文教了一套利用华为交换机报文统计功能来定位问题,进而解决问题。

现象:出现网络不稳定导致瞬断的问题,具体情况是ping内网网关没问题,ping运营商端网关偶尔出现丢包。

分析:出现丢包导致瞬断现场情况一般有8种:

1、运营商的用户接入端口问题;

2、运营商到用户的光纤损耗大或者损坏等问题;

3、光纤收发器有问题,比如手摸太烫就

4、用户端与运营商端口协商不好;

5、路由器不稳定;

6、广播风暴;

7、数据包堵塞;

8、出现环路。

如果都不知道到底是运营商问题还是用户端问题,就很难解决了。

一般解决方法:甩开用户网络,通过一台电脑直接接到运营商的设备(光纤收发器)上进行单机测试。这样测试有很多缺点:

1、由于瞬断问题很难捕捉,单机测试需较长时间观察,对业务影响很大,不可能所有业务停掉专门检测很长时间。

2、如是大流量引起的网络丢包现象,单机较难测试。

本人解决原理:加装一个华为交换机,报文统计功能。

通过此交换机的2个端口来统计进交换机的数据包情况。从内网到交换机特定的数据包和从外网进交换机的特定数据包统计。如从内网发送1000个数据包出去了,看交换机接内网接口是否接受到了这1000个数据包(如丢包即内网故障),到了公网网关后,返回这些多数据包后,看另外一个接口是否同样接受到了这1000个数据包(如丢包即运营商故障)。解决具体实例:

网络拓扑结构如下:

某单位运营商分配的ip地址为218.92.204.2/30,内网ip地址段为192.168.1.1/24,路由器和光纤收发器之间增加一台华为S3552交换机,1/1口接光纤收发器,1/2口接路由器并开启交换机端口的报文统计功能。

具体配置如下:

1、首先定义ACL

[Quidway]acl number 3600

[Quidway-acl-adv-3600]rule 0 permit icmp source any destination 218.92.204.1 0.0.0.0

[Quidway-acl-adv-3600]quit

[Quidway]acl number 3601

[Quidway-acl-adv-3601]rule 0 permit icmp source any destination 218.92.204.2 0.0.0.0

[Quidway-acl-adv-3600]quit

2、在端口上开启报文统计功能

[Quidway]interface Ethernet 1/1

[Quidway-Ethernet1/1]traffic-statistic inbound ip-group 3601 rule 0

[Quidway]interface Ethernet 1/2

[Quidway-Ethernet1/1]traffic-statistic inbound ip-group 3600 rule 0

3、在PC机上打开PING功能,ping 电信测公网网关

Ping 218.92.204.1 –t

Packets: Sent = 1000, Received = 4, Lost =1 

4、与交换机里统计的ICMP包数量比对

统计与外网连接1/1端口接受到的数据包

[Quidway]display qos-interface Ethernet 1/1 traffic-statistic

Ethernet1/1: traffic-statistic

Inbound:

Matches: Acl 3600 rule 0  running

950 packet

65统计与内网连接1/2端口接受到的数据包

[Quidway]display qos-interface Ethernet 1/2 traffic-statistic

Ethernet1/2: traffic-statistic

Inbound:

Matches: Acl 3600 rule 0  running

950 packet

从上看出数据包2/1端口只接受到950个端口,明显丢包,是内网故障,经仔细检查原来是内网广播风暴引起。

经验总结

如果路由器有统计报文功能,也可以利用路由器来完成此项任务。Ping运营商网关也可以ping当地其他网站运营商也可,主要是利用交换机统计从内网和外网进来的特定数据包情况来完成的。如果ping内网都不通,那我们同样可以路由器下接交换机来检测出到底是哪里出了问题,读者可以在理解的基础上,进一步运用此技术。

原载《网络运维与管理》杂志2012年第20期