Mesos

本章节为 Cloud Insight 支持的平台服务的文档的示例。

目前能够想到的章节分为以下几个部分:

  • 支持的性能指标
  • 如何配置 Mesos 监控
  • 常见的问题

性能指标

Cloud Insight 默认开启 Mesos 以下性能指标的监控:

  • mesos.cluster.cpus_percent
  • mesos.cluster.cpus_total
  • mesos.cluster.cpus_used
  • mesos.cluster.disk_percent
  • mesos.cluster.disk_total
  • mesos.cluster.disk_used
  • mesos.cluster.dropped_messages
  • mesos.cluster.event_queue_dispatches
  • mesos.cluster.event_queue_http_requests
  • mesos.cluster.event_queue_messages
  • mesos.cluster.frameworks_active
  • mesos.cluster.frameworks_connected
  • mesos.cluster.frameworks_disconnected
  • mesos.cluster.frameworks_inactive
  • mesos.cluster.invalid_framework_to_executor_messages
  • mesos.cluster.invalid_status_update_acknowledgements
  • mesos.cluster.invalid_status_updates
  • mesos.cluster.mem_percent
  • mesos.cluster.mem_total
  • mesos.cluster.mem_used
  • mesos.cluster.outstanding_offers
  • mesos.cluster.recovery_slave_removals
  • mesos.cluster.slave_registrations
  • mesos.cluster.slave_removals
  • mesos.cluster.slave_reregistrations
  • mesos.cluster.slave_shutdowns_canceled
  • mesos.cluster.slave_shutdowns_scheduled
  • mesos.cluster.slaves_active
  • mesos.cluster.slaves_connected
  • mesos.cluster.slaves_disconnected
  • mesos.cluster.slaves_inactive
  • mesos.cluster.tasks_error
  • mesos.cluster.tasks_failed
  • mesos.cluster.tasks_finished
  • mesos.cluster.tasks_killed
  • mesos.cluster.tasks_lost
  • mesos.cluster.tasks_running
  • mesos.cluster.tasks_staging
  • mesos.cluster.tasks_starting
  • mesos.cluster.total_frameworks
  • mesos.cluster.valid_framework_to_executor_messages
  • mesos.cluster.valid_status_update_acknowledgements
  • mesos.cluster.valid_status_updates
  • mesos.registrar.queued_operations
  • mesos.registrar.registry_size_bytes
  • mesos.registrar.state_fetch_ms
  • mesos.registrar.state_store_ms
  • mesos.registrar.state_store_ms.count
  • mesos.registrar.state_store_ms.max
  • mesos.registrar.state_store_ms.min
  • mesos.registrar.state_store_ms.p50
  • mesos.registrar.state_store_ms.p90
  • mesos.registrar.state_store_ms.p95
  • mesos.registrar.state_store_ms.p99
  • mesos.registrar.state_store_ms.p999
  • mesos.registrar.state_store_ms.p9999
  • mesos.role.cpu
  • mesos.role.disk
  • mesos.role.frameworks.count
  • mesos.role.mem
  • mesos.role.weight
  • mesos.slave.cpus_percent
  • mesos.slave.cpus_total
  • mesos.slave.cpus_used
  • mesos.slave.disk_percent
  • mesos.slave.disk_total
  • mesos.slave.disk_used
  • mesos.slave.executors_registering
  • mesos.slave.executors_running
  • mesos.slave.executors_terminated
  • mesos.slave.executors_terminating
  • mesos.slave.frameworks_active
  • mesos.slave.invalid_framework_messages
  • mesos.slave.invalid_status_updates
  • mesos.slave.mem_percent
  • mesos.slave.mem_total
  • mesos.slave.mem_used
  • mesos.slave.recovery_errors
  • mesos.slave.tasks_failed
  • mesos.slave.tasks_finished
  • mesos.slave.tasks_killed
  • mesos.slave.tasks_lost
  • mesos.slave.tasks_running
  • mesos.slave.tasks_staging
  • mesos.slave.tasks_starting
  • mesos.slave.valid_framework_messages
  • mesos.slave.valid_status_updates
  • mesos.stats.elected
  • mesos.stats.registered
  • mesos.stats.system.cpus_total
  • mesos.stats.system.load_15min
  • mesos.stats.system.load_1min
  • mesos.stats.system.load_5min
  • mesos.stats.system.mem_free_bytes
  • mesos.stats.system.mem_total_bytes
  • mesos.stats.uptime_secs

配置 Mesos

编辑 Master 配置文件

在 Master 节点,编辑配置文件 conf.d/mesos_master.yaml,使 Cloud Insight Agent 可以与 Mesos Master API 通信。

init_config:
  default_timeout: 5
instances:
  # url: the API endpoint of your Mesos
master
  - url: https://server:port

重启 Agent

重启 OneAPM Cloud Insight Agent,使配置生效。

您也可以通过查看 Agent Info 信息,来验证配置是否成功。当出现以下信息,则代表安装成功。

Checks
======

[...]

mesos_master
------------
  - instance #0 [OK]
  - Collected 8 metrics & 0 events

编辑 Slave 配置文件

在 Master 节点,编辑配置文件 conf.d/mesos_slave.yaml,使 Cloud Insight Agent 可以与 Mesos Slave API 通信。

init_config:
  default_timeout: 5
instances:
  # url: the API endpoint of your Mesos slave
  - url: https://server:port
    # tasks: Task's names to monitor
    tasks:
      - Hello

重启 Agent

重启 OneAPM Cloud Insight Agent,使配置生效。

您也可以通过查看 Agent Info 信息,来验证配置是否成功。当出现以下信息,则代表安装成功。

Checks
======

[...]

mesos_slave
-----------
  - instance #0 [OK]
  - Collected 8 metrics & 0 events

有关 Agent Info 信息的查看,请访问帮助中心,查看 Cloud Insight Agent 常用操作

常见问题