Nagios/Ganglia与Splunk成就云计算监控体系_Linux伊甸园开源社区-24小时滚动更新开源资讯，全年无休！

综合利用Nagios、Ganglia和Splunk搭建起的云计算平台监控体系，具备错误报警、性能调优、问题追踪和自动生成运维报表的功能。有了这套系统，就可轻松管理Hadoop/HBase云计算平台。

云计算早已不是停留在概念阶段了，各大公司都购买了大量的机器，开始正式的部署和运营。而动辄上百台的性能强劲的服务器，为运营管理带来了巨大的挑战。

如果没有方便的监控报警平台，对于管理员而言犹如噩梦，每天都将如救火队员一样，飞快地敲击键盘，用原始的Unix命令在多台机器中疲于奔命。

如果没有好的日志管理平台，对于开发者Troubleshooting更是一件泪流满面的事情。

而如果你是运维团队的总负责人，简洁清晰的Report则非常重要。Stakeholder们动不动就可能问起系统的SLA、机器的利用率等诸多问题，毕竟，公司为此投入了巨大的资金和人力。

朋友们，当我们管理起公司寄予厚望的云计算平台时，当我们面对如此多充满挑战的实际问题时，该怎么办?

概述

我们在搭建趋势云计算平台时，遇到了很多的问题和挑战。开始搭建时，第一次来了那么多性能强劲的机器，我们在感到兴奋的同时，也不免有些顾虑。大家坐在一起讨论，问题就列了满满一白板。

出了问题怎么办，有没有预警机制?

有没有可视化的管理界面?

管理平台需要自己开发吗?开发难度有多大?

红色部分清楚地标注有问题的机器，点开链接，就可以得到有问题机器的情况。虽然在HBase中，几台RegionServer宕机不会对整体服务产生大的影响，但多少会影响到系统的Performance。而且，如果某几台RegionServer频繁宕机，对整个系统的稳定性也会产生不好的影响。有了Nagios，我们可以快速定位有问题的机器，及时地将一些机器移除出HBase系统，待调整好了再上线运行，以保证系统的稳定性。

现在，Nagios已经成为了很多公司必备的监控工具。只需要简单地配置，就可以实现强大的功能，将管理员从日常烦琐的工作中解放出来。

有了Nagios，哪怕就是管理上千台机器，也不会手忙脚乱，而是有一种统领千军、运筹帷幄的感觉。

Ganglia：看到云计算平台的方方面面

Nagios的确不错，但你是不是真的可以喝茶、钓鱼、睡大觉呢?显然还不行。有了Nagios，你基本上可以做个优秀的救火队员，能在事发第一时间到达现场、处理事故。但如何防患于未然，真正做到运筹帷幄、游刃有余呢?

我们需要更加精确的数据，能够看到云计算平台的方方面面，能根据这些数据，做出性能调整、升级、扩容等的决策，从而保证Service能够满足不断增长的业务需求。

这时候，你需要Ganglia。

Ganglia是UCBerkeley发起的一个开源实时监视项目，用于测量数以千计的节点，为云计算系统提供系统静态数据以及重要的性能度量数据。Ganglia系统基本包含以下三大部分。

Gmond：Gmond运行在每台计算机上，它主要监控每台机器上收集和发送度量数据(如处理器速度、内存使用量等)。

Gmetad：Gmetad运行在Cluster的一台主机上，作为WebServer，或者用于与WebServer进行沟通。

GangliaWeb前端：Web前端用于显示Ganglia的Metrics图表。

Hadoop和HBase本身对于Ganglia的支持非常好。通过简单的配置，我们可以将Hadoop和HBase的一些关键参数以图表的形式展现在Ganglia的WebConsole上。这些对于我们洞悉Hadoop和HBase的内部系统状态有很大的帮助。

在Hadoop的conf文件夹下面，找到hadoop-metrics.properties，配置好Ganglia的Server即可。这里要注意，Ganglia3.0和Ganglia3.1的区别，它们使用了不同的class。

dfs.class=org.apache.hadoop.metrics.ganglia.GangliaContext31dfs.period=10dfs.servers={Ganglia_Server}:8649

有了这些图表，Hadoop和HBase就不再是一个黑盒。无论是Hadoop的Namenode、Datanode，还是HBase的MasterServer、RegionServer任何时刻的情况，都会一目了然。由于图标的跨度可以是小时、天、月甚至是年，这样，就可以非常方便地定期生成周报、月报和年报。同时，根据图中Metrics的状况，我们可以通过调整参数、增加内存和硬盘、增加机器等的方法调整单个机器或者整个Service的性能。

有没有开源的管理工具?

那么多日志分布在各个机器上，有没有更有效的方法管理?

能否生成好的报表?

机器宕机，管理员能否收到短信通知?

如何做性能调优?

扩容升级时，能否给出依据?

带着这些问题，我们开始了自己的云计算平台管理和运营之旅，一路走来，收获颇丰。现在基本上形成了如图1所示的一整套云计算平台监控体系。

图1云计算平台监控架构

在这个系统中，我们综合利用了Nagios、Ganglia和Splunk，搭建起云计算平台监控体系，使其具备错误报警、性能调优、问题追踪和自动生成运维报表的功能。有了这套系统，我们终于能够轻松管理Hadoop/HBase云计算平台了。接下来将简单介绍它们的特点和功能。

Nagios：云计算平台的智能报警器

总不能天天盯着机器看吧，因此我们首先关心的是机器的监控与报警。最理想的境界是：如果机器出故障了，我能第一时间处理;如果机器没有问题(最好永远没有问题)，我能去喝茶、钓鱼和睡大觉。

发现机器有没有问题，对我们而言不是什么难事。写个脚本，Ping一下IP，Telnet每台机器的Service端口，如果增加了新机器就改改配置即可。但这样也太原始了吧，可视化效果差，不好维护，没有层次，不好管理，出不来报表，总不能老是用Excel人工写报表吧。有没有更好的方法呢?

有，你可以用Nagios。

Nagios是一个可运行在Linux/Unix平台之上的开源监视系统，可以用来监视系统运行状态和网络信息。Nagios可以监视所指定的本地或远程主机以及服务，同时提供异常通知功能。

Nagios可以提供以下几种监控功能。

监控网络服务(SMTP、POP3、HTTP、NNTP、Ping等)。

监控主机资源(处理器负荷、磁盘利用率等)。

简单的插件设计使得用户可以方便地扩展自己服务的检测方法。

并行服务检查机制。

具备定义网络分层结构的能力，并使用“parent”主机定义来表达网络主机间的关系，这种关系可被用来发现和明晰主机宕机或不可达状态。

当服务或主机问题产生与解决时将告警发送给联系人(通过电子邮件、短信、用户定义方式)。

具备定义事件处理功能，可以在主机或服务的事件发生时获取更多问题定位。

自动的日志回滚。

可以支持并实现对主机的冗余监控。

可选的Web界面用于查看当前的网络状态、通知和故障历史、日志文件等。

Nagios最好用的地方就是它将这些每天管理员做的工作自动化，你只需设定好要监听的端口即可，它会默默地工作，帮忙定时地去检测服务端口的状态，一旦发现问题，会及时发出报警。报警可以是电子邮件也可以是手机，从而使得管理员第一时间就能收到系统的状况。

Nagios的报表功能也很强大。管理员可以很容易地得到每天、每周和每月的Service运行状况。

时间:2014-02-25 17:25 来源:慧聪网作者:慧聪网原文链接

新闻

软件

博客

论坛

商城

人才

广告

联系

投稿

3G Eden

RSS

Nagios/Ganglia与Splunk成就云计算监控体系