Mesos
本章节为 Cloud Insight 支持的平台服务的文档的示例。
目前能够想到的章节分为以下几个部分:
- 支持的性能指标
- 如何配置 Mesos 监控
- 常见的问题
性能指标
Cloud Insight 默认开启 Mesos 以下性能指标的监控:
- mesos.cluster.cpus_percent
- mesos.cluster.cpus_total
- mesos.cluster.cpus_used
- mesos.cluster.disk_percent
- mesos.cluster.disk_total
- mesos.cluster.disk_used
- mesos.cluster.dropped_messages
- mesos.cluster.event_queue_dispatches
- mesos.cluster.event_queue_http_requests
- mesos.cluster.event_queue_messages
- mesos.cluster.frameworks_active
- mesos.cluster.frameworks_connected
- mesos.cluster.frameworks_disconnected
- mesos.cluster.frameworks_inactive
- mesos.cluster.invalid_framework_to_executor_messages
- mesos.cluster.invalid_status_update_acknowledgements
- mesos.cluster.invalid_status_updates
- mesos.cluster.mem_percent
- mesos.cluster.mem_total
- mesos.cluster.mem_used
- mesos.cluster.outstanding_offers
- mesos.cluster.recovery_slave_removals
- mesos.cluster.slave_registrations
- mesos.cluster.slave_removals
- mesos.cluster.slave_reregistrations
- mesos.cluster.slave_shutdowns_canceled
- mesos.cluster.slave_shutdowns_scheduled
- mesos.cluster.slaves_active
- mesos.cluster.slaves_connected
- mesos.cluster.slaves_disconnected
- mesos.cluster.slaves_inactive
- mesos.cluster.tasks_error
- mesos.cluster.tasks_failed
- mesos.cluster.tasks_finished
- mesos.cluster.tasks_killed
- mesos.cluster.tasks_lost
- mesos.cluster.tasks_running
- mesos.cluster.tasks_staging
- mesos.cluster.tasks_starting
- mesos.cluster.total_frameworks
- mesos.cluster.valid_framework_to_executor_messages
- mesos.cluster.valid_status_update_acknowledgements
- mesos.cluster.valid_status_updates
- mesos.registrar.queued_operations
- mesos.registrar.registry_size_bytes
- mesos.registrar.state_fetch_ms
- mesos.registrar.state_store_ms
- mesos.registrar.state_store_ms.count
- mesos.registrar.state_store_ms.max
- mesos.registrar.state_store_ms.min
- mesos.registrar.state_store_ms.p50
- mesos.registrar.state_store_ms.p90
- mesos.registrar.state_store_ms.p95
- mesos.registrar.state_store_ms.p99
- mesos.registrar.state_store_ms.p999
- mesos.registrar.state_store_ms.p9999
- mesos.role.cpu
- mesos.role.disk
- mesos.role.frameworks.count
- mesos.role.mem
- mesos.role.weight
- mesos.slave.cpus_percent
- mesos.slave.cpus_total
- mesos.slave.cpus_used
- mesos.slave.disk_percent
- mesos.slave.disk_total
- mesos.slave.disk_used
- mesos.slave.executors_registering
- mesos.slave.executors_running
- mesos.slave.executors_terminated
- mesos.slave.executors_terminating
- mesos.slave.frameworks_active
- mesos.slave.invalid_framework_messages
- mesos.slave.invalid_status_updates
- mesos.slave.mem_percent
- mesos.slave.mem_total
- mesos.slave.mem_used
- mesos.slave.recovery_errors
- mesos.slave.tasks_failed
- mesos.slave.tasks_finished
- mesos.slave.tasks_killed
- mesos.slave.tasks_lost
- mesos.slave.tasks_running
- mesos.slave.tasks_staging
- mesos.slave.tasks_starting
- mesos.slave.valid_framework_messages
- mesos.slave.valid_status_updates
- mesos.stats.elected
- mesos.stats.registered
- mesos.stats.system.cpus_total
- mesos.stats.system.load_15min
- mesos.stats.system.load_1min
- mesos.stats.system.load_5min
- mesos.stats.system.mem_free_bytes
- mesos.stats.system.mem_total_bytes
- mesos.stats.uptime_secs
配置 Mesos
编辑 Master 配置文件
在 Master 节点,编辑配置文件 conf.d/mesos_master.yaml
,使 Cloud Insight Agent 可以与 Mesos Master API 通信。
init_config:
default_timeout: 5
instances:
# url: the API endpoint of your Mesos
master
- url: https://server:port
重启 Agent
重启 OneAPM Cloud Insight Agent,使配置生效。
您也可以通过查看 Agent Info 信息,来验证配置是否成功。当出现以下信息,则代表安装成功。
Checks
======
[...]
mesos_master
------------
- instance #0 [OK]
- Collected 8 metrics & 0 events
编辑 Slave 配置文件
在 Master 节点,编辑配置文件 conf.d/mesos_slave.yaml
,使 Cloud Insight Agent 可以与 Mesos Slave API 通信。
init_config:
default_timeout: 5
instances:
# url: the API endpoint of your Mesos slave
- url: https://server:port
# tasks: Task's names to monitor
tasks:
- Hello
重启 Agent
重启 OneAPM Cloud Insight Agent,使配置生效。
您也可以通过查看 Agent Info 信息,来验证配置是否成功。当出现以下信息,则代表安装成功。
Checks
======
[...]
mesos_slave
-----------
- instance #0 [OK]
- Collected 8 metrics & 0 events
有关 Agent Info 信息的查看,请访问帮助中心,查看 Cloud Insight Agent 常用操作。