十几万连接几M的流量,吓死“宝宝”了

    某局点升级(nginxats,同时去掉前端的nginx负载层),升级之后服务就不正常,硬生生的看着十几万连接,没有流量,各种排错,可谓是把心提到嗓子眼惊心动魄的半小时,虽然做了很好的业务机制,服务不正常用户可以直接回源,不过对于我们的流量而言肯定是个锯齿了,回顾一下排查过程。

    升级过程不说了,升完后对业务配置、健康心跳、磁盘设置、本地回源DNS简单做了检查,没发现问题。接下来就是切流量过来,前端的DNS按照域名哈希将请求分发过来,流量迅速到了100M还在上升,连接数到了几万(域名质量不好,很多动态的,所以也算正常),但过了几分钟流量骤降,一直降到了几M,观察连接数没降反升,内存几乎吃满。


wKiom1bzhJfwm1sBAAAsIR0QP0A921.png

(当前连接数)


wKioL1bzgkjyVlEsAAEHV57jF6I206.png

(进出流量及cpu、内存、tcp重传1秒刷新动态监控图,内存越跑越满,tcp重传越来越高)


    神经马上紧张起来了,先检查DNS是否正常,因为本地回源DNS如果坏掉,会出现这种攒了大量连接无法服务的情况,然而测试发现本地回源DNS服务正常,看来不是简单问题,crt打开多个窗口,开始监测:

    tailf /var/log/messages |grep kernel   没有报错,系统层面应该没什么问题。

    tailf /opt/ats/var/log/trafficserver/diags.log 没有明显报错,只是过一段时间会提示连接太多,丢弃连接,说明业务肯定是不正常了,不过定位不了是哪里的错误。

    tstop打开后查看整体的情况,发现正常刷新,但是每次刷新有些数据不能正常显示,内存缓存和硬盘缓存的容量都没有显示,为什么没有显示呢,是设置错误了么,然后再去检查磁盘设置,发现records.config内存缓存设置为内存的一半12Gstorge.config设置也没问题,继续检查。

    tsar

本页内容版权归属为原作者,如有侵犯您的权益,请通知我们删除。
系统环境:CentOS6.5 软件:mongodb2.8 原来是想到现在的数据进行添加副本集,方便读写的,没想到悲剧了,现在连原来的主数据都变成了从的数据库,怎么也换不过去 。 尝试了两个解决办法: 1 . 登录的原的主mongodb ,用rs.remove()的办法把后来添加的副本集从member里移掉,失败了。 真的悲剧了,怎么都remove不掉,因为原来的master已经变成了slave,不能remove其它成员 2 . 更改config,修改member 0 的优先级,抢占master。 执行也是
0.说明 关于一个完整的教程,还是那句话,国内的要么不完整,要么就太旧了,而且思路也不清晰,所以这里写一篇完整的给大家分享一下。 虽然对于Linux主机的监控可以通过执行特定的命令来完成,但是相比之后,通过snmp的方式来获取Linux主机的信息则会更轻松简单些,只不过在使用前的配置可能需要花多一点时间,不过这绝对值得!而且如果需要开发Linux主机的监控软件,那使用snmp肯定是首选,毕竟它可以获得的信息太多太多! 后面的内容就来分享一下 在Ubuntu上安装、配置、启动snmp以及进行远程测试的完整过

破墙而入看电视 - 2016-04-04 17:04:55

搬家、又是搬家,伤不起啊! 原房东催得急,只得尽快找新的地方,只要不是中介,就优先考虑。还算顺利,在隔壁看了一个大的单间,没了解细节,就付押金开始搬家。收拾完毕以后,想趟下来看电视,悲催,房东没给机顶盒;这也没事,我自己有联通的iptv机顶盒,办理网络移机后就可以了。 光纤入户到厨房,接上路由器,有线、无线都能上网。然后看怎么接入网线到卧室里,悲催的是,卧室里找遍了,没发现墙上有网络接口。因为我租的只是一个大间,厨房是公用的,因此电视只能放在租的卧室里。如果拉明线,必须从墙上打洞。我担心打洞后,房东找茬,
前言:这里只是说明整个搭建流程,并不进行原理性的讲解 一 下面所需要用到的数据库配置: 数据库方面,使用mysql创建一个 users 表,具体代码如下: DROPTABLEIFEXISTS`users`;CREATETABLE`users`(`UserID`int(4)NOTNULLAUTO_INCREMENT,`UserName`varchar(16)NOTNULL,`Password`varchar(16)NOTNULL,`Telephone`varchar(16)NOTNULL,`Address`
1.模拟数据库损坏 这个时候数据库已经损坏了,用户无法登录到邮箱,也不能接收或者发送邮件。如下图所示。 2.创建拨号音数据库 当务之急,先恢复用户的邮件收发,可以创建一个拨号音数据库,让用户先能够正常收发邮件。创建给拨号音数据库使用的文件夹。 创建拨号音数据库 将原来DB1上的所有用户暂时迁移到DTB1上,使得用户能够正常收发。 装载DTB1数据库 检查原来DB1中的用户是否能够正常收发邮件(但是无法查看之前的过往邮件) 创建还原数据库RDB1 创建RDB 将DB1中的所有日志文件复制到RDB1文件夹中,
现象: 执行迁移live-migration操作后,显示成功迁移,但是实际没有执行迁移动作 解决过程: 在dashboard执行虚机热迁移操作,提示操作成功,但是实际虚机没有迁移; 之前遇到过内存不足导致迁移失败,但是经过查看发现源和目的节点资源充足; 然后在nova的log看到如下内容:DestinationDiskExists_Remote: The supplied disk path (/var/lib/nova/instances/e40708e3-7f19-4f9c-8d19-3e600037
1、故障描述 接到用户报障,生产某系统无法访问。同事接到报障后立即排查,经测试,系统确实无法访问,并且无法ping通服务器。 2、故障处理 由于客户端无法ping通服务器,需要进入机房查看。经查看,服务器硬件无报警,系统无重启。登录系统使用ifconfig命令查看,IP丢失(eth0不存在),紧接打开网卡配置目录/etc/sysconfig/network-scripts,发现网卡文件ifcfg-eth0丢失,只存在之前备份的ifcfg-eth0.bak文件和ifcfg-peth0文件。根据先抢通业务后处
基于Web方式的数据包捕获实践 抓包是运维的必备技能,很多网络故障需要靠抓包来解决,如常见的ARP欺骗和广播风暴。另外还有一些网线或光纤接触不好的故障,不抓包也很难分析出来,例如两个公司之间互联,网线测试都没问题,但始终不通。经过抓包分析表明,发现其他单位的ping请求都伴随着ARP查询,而不走路由,这时怀疑有可能掩码设置错误的问题,经仔细排查,确实是路由器上的掩码出现失误。抓包工具有不少但选择一款适合你的工具非常重要。 本文主要为大家介绍OSSIM环境中,故障排除利器—基于Web的数据包分析工具,它是W
实现目的: 因为mesos中实际的工作节点是slave,框架marathon启动的任务(容器)都是在随机的slave上执行,所以在每台slave上启动Registrator,用来发现本机上的容器,它会把当前宿主机上的容器自动注册到consul.但是consul找一台salve启动就行,它会把自己选为leader,其他slave上启动Registrator的时候指定此leader就行 环境: 192.168.0.149 Mesos-master、Zookeeper 192.168.0.161 Mesos-m

centos6.5上面HTOP实战!!! - 2016-04-04 15:04:58

项目背景: 我们公司需要一个交互式的进程查看软件,比top命令更好用的软件,使我们的服务器进程监控更灵活方便!!!! 实验环境: vmware workstation 11 centos6.5的系统下 服务器:ip:192.168.0.27 SecureCRT (ssh远程连接软件) 软件介绍: Htop:进程实时监控,交互式的进程浏览器。 htop命令优点: 1) 快速查看关键性能统计数据,如CPU(多核布局)、内存/交换使用; 2) 可以横向或纵向滚动浏览进程列表,以查看所有的进程和完整的命令行; 3