同方有云 - 新闻

悉尼峰会行 | 主题分享：大规模生产环境下Telemetry的使用

姚宁 | 2017-11-11

2017年11月06日-08日，第16届OpenStack峰会在悉尼成功举行。UnitedStack同方有云，中国最早的 OpenStack 开源云计算公司之一，作为黄金会员赞助并出席了本次峰会。同方有云的工程师团队为峰会带来了来自中国公司的主题分享，其中高级工程师姚宁的分享主题为《大规模生产环境下Telemetry的使用》。

Telemetry 是 OpenStack 的监控计量项目，原项目称为 ceilometer，它需要完成数据采集、数据存储、数据查询、监控告警策略等一系列的逻辑，因此该项目也越来越庞大，导致其越来越难维护，故从 Liberty 版开始，社区将其逻辑进行拆分，并衍生出了 4个项目，分别为 ceilometer，gnocchi，panko，aodh，而这4个项目统称为 Telemetry。

由于 Telemetry 在 OpenStack 生态圈中，使用的人较少，而本次的重构拆分和迭代的版本

首先，我们来看一张图显示的测试结果：

从上图可知，我们在 3控制节点，6计算节点的环境下，创建出了 2000 台虚拟机。然而控制节点上面 cpu 的利用率达到了 70% 以上（gnocchi-api 使用率最高），内存的利用率达到了 80% 以上（ceilometer 使用率最高），且计算节点上，Ceph 后端磁盘上的压力达到了 SSD 磁盘带宽的 90% 以上。那么到底是什么造成了这样的结果，分析如下：

首先，针对Ceph 存储带宽被耗尽的问题，Gnocchi 后端存储 3种类型的数据，Measure Storage 存储从 API 发来的临时的 Measure 数据；Metricd 通过对 Measure Storage 中数据进行聚合，形成可查询的时序数据，存储入 Aggregate Storage；Index Storage 用于存储元数据，从而组织起有哪些 metrics 监控项，这些 metrics 属于那个 resource 等等。

但是，在 P版本之前，Measure Storage 和 Aggregate Storage 只能使用同一种后端，如果配置了 Ceph 那么就必须使用 Ceph，可是 Ceph 在 Measure Storage 存储数据的时候，有一个很严重的问题是 Ceph 将 Key-Value 的数据都存储在了 Rocksdb/LevelDB 中，而 Rocksdb 和 Leveldb 具有极大的读写放大，根据测试结果，Rocksdb 中写入 45G 用户数据，可能被放大成 1868GB，放大系数高达 42倍，如下图：

而对于高频率，高读写的临时 Measure 数据，是非常不适合存储在 Rocksdb 中，这是导致底层磁盘带宽过度消耗的主要原因。所以我们能做的就是将 Measure Storage 和 Aggregate Storage 的后端分离，Measure Storage 后端使用 redis，而 Aggregate Storage 的后端使用 Ceph，在 P版中配置如下：

[incoming]

redis_url = ${storage.redis_url}

[storage]

driver = ceph

ceph_pool = gnocchi

ceph_username = None

ceph_secret = None

ceph_keyring = None

ceph_conffile = /etc/ceph/ceph.conf

其次，如果我们使用 Ceilometer 进行数据收集，假设我们有 3 个 ceilometer notification agent，那么，如下图所示

其中，A，B，C，D 代表每个 metric 监控项，A1 代表第一次监控数据，A2 代表第二次监控数据。然而，可能出现的情况如下：

A 监控项的数据分布到了两个不同的 ceilometer agent 上面，那么如果我们需要计算磁盘 IO 速率这种指标，disk read per second: ∆𝒙 / period，这里 ∆𝒙=A3 - A1。∆𝒙 与我们原先希望的 A2 - A1 不同，而且由于我们需要计算差值，就必须存储所有监控项的上一次差值，那么在这种情况下，第一个 ceilometer agent 会存储 A 监控项上一次的值 A1，而第三个 ceilometer agent 上面也会存储 A 监控项上一次的值 A2，这就导致了到虚拟机和监控项数据增加的时候，ceilometer notification agent 的内存使用率将直线增加，从而严重影响水平可扩展性和资源效率。

所以我们需要正确配置 workload_partitioning，使得不同监控项到达 ceilometer notification agent 以后能够被重新分发进以监控资源为关键字索引的队列，然后让特定的 ceilometer notification agent 去处理，这样就保证了一个监控项中的值最后只会被特定的 ceilometer notification agent 处理，如下图所示：

最后，就是 ceilometer 向 gnocchi 传输数据的时候，使用 http 协议的问题，这导致了平凡更新的监控数据高频率的调用 API，而 API 调用操作是一次非常重量级的操作，需要和 keystone，数据库等多个后端组件交互，严重影响的单控制节点对请求的处理效率，消耗大量的 cpu 计算时间。我们在这里提出，监控数据应该使用 UDP 协议来进行传输上报，如何调优及使用，我们将在下次继续介绍，有兴趣的小伙伴们请持续关注我们。

在优化后，我们平台能够承载的虚拟机数量和监控项数量大幅度增加，如下图所示：

原先平台只能支撑 500 台虚拟机（每台虚机 20个监控项），以每 5分钟一个采样点进行采样监控。经过优化，在同样的情况下，我们可以轻松的支撑 2000 台虚拟机 1分钟一个采样点进行采样。

总结，目前 Telemetry 项目在真正的使用中，成熟度仍然欠佳，但是我们也看到了 Telemetry 项目的持续发展和走出困境的决心，并且在你能够深入的掌控和很好的配置且使用 Telemetry 的情况下，它已经能够承载小规模或一定规模集群的监控告警和计量任务，有兴趣的小伙伴们快来试一试吧。

同方有云助力同方发力信息产业2.0

联系我们