美团应用监控与分析实战
美团网 洪丹
• 美团网业务运维挑战
• 美团网监控架构
• 美团网应用监控理念与实践
大纲
业务持高速增长 新业务不断涌现 产品更新频繁
开源组件繁多 业务架构复杂
资源和成本的精细
控制
美团应用运维挑战
指标 数值
Hosts 1W
Items 300W
Triggers 23W
消耗资源 10
美团网监控架构
• 结合业务架构
的监控分析
• 对业务形成有
益反馈
• 精准的告警
• dashboard
• 全方位覆盖
• 数据全量保存
全面 聚焦
分析 反馈
美团应用监控理念
• 网络层面
– IDC出和带宽:带ip分解、按域名分解
–专线带宽:按host分解,分析TOP占用
• 系统层面
–单机load,cpu,mem,disk,io,traffic等
– cpu_steal,net traffic需要与宿主机指标结合
美团应用监控理念 – 全面
• 入口nginx
– qps,rt,4xx,5xx,succ,outer_bps,inn
er_bps
– upstream健康状态
– 分path的qps,rt(50th,90th,95th)等
指标
• 逻辑层
– http服务:qps,rt,qps,slowcount
– jvm:thread count,fd,gc等
– 日志:error,exception,slowlog等
美团应用监控理念 – 全面
• 服务化层
– thrift服务:qps,rt;
区分来源去向,区
分C/S
– 数据库连接池:
dbcp,c3p0
• 消息队列
– beanstalk: all,分tube
– Rabbitmq:
cluster,nodes,queues
– kafka
美团应用监控理念 – 全面
• NOSQL
– redis
– memcache
– Tair
– hbase
• SQL
– mysql:qps,slave_lag
• 其它
– 客诉排队
– 销量指标
美团应用监控理念 – 全面
• 告警的原则
–基于现象而非原因
–无需处理的不告警
• 告警工具
–告警订阅
–告警合并
–告警通道
美团应用监控理念 – 聚焦
• 告警的频次和趋势分析
–修复反复出现的问题
–精简告警数量
美团应用监控理念 – 分析
• 业务依赖关系的分析
–基于TCP连接关系的拓扑
–基于thrift调用的拓扑
–基于http日志的拓扑
美团应用监控理念 – 分析
• 交叉事件分析
–时光机
美团应用监控理念 – 分析
• 根据监控数据触发服务降级策略
– qps
–失败率
• 根据监控数据优化云主机分配
– VM资源占用率
–业务特点
• cpu密集,IO密集,大流量
–资源竞争情况
• cpu_steal,traffic,diskio
美团应用监控理念 – 反馈
业务持高速增长 新业务不断涌现 产品更新频繁
开源组件繁多 业务架构复杂
资源和成本的精细
控制
全面 聚焦
分析 反馈
应
用
监
控
快速 弹性
稳定 高效
美
团
云
总结
斐讯云计算 美团云 - 我们的客户