平台
Cloud Insight 提供基础设施的监控,以操作系统的监控为核心。在这里,我们将这种监控方式,称之为平台监控;而运行在平台下的服务,如数据库、Web 服务,我们称之为平台服务。
平台安装
运行在平台的 Cloud Insight 探针,我们称之为 Agent。Agent 包括以下几个功能:
- 采集平台和平台服务的性能指标
- 记录平台和平台服务的事件
- 生效平台和平台服务的 Agent 配置
- 向 Cloud Insight 发送数据
当 Cloud Insight 页面出现无数据,或者其他的异常情况。很大程度上,是因为 Agent 运行异常的问题。此时,可以通过 Agent 自检来排除问题:
将 Agent 安装至平台开始监控平台的运行情况,即平台的安装。Cloud Insight Agent 目前可以安装在 CentOS、Ubuntu、Fedora、RedHat 操作系统上。
平台列表
当成功安装平台时,平台列表则会列出已经监控的平台。
DOWN / UP 状态
其中「状态」代表平台是处于 DOWN 还是 UP 的状态。UP 则代表安装在平台中的 Cloud Insight 可以正常发送数据,并且 OneAPM 可以接收到数据。
DOWN 的状态,代表在 3 分钟内 OneAPM 为接收到您平台中的 Agent 中的数据。此时,您可以查阅 Agent 常用操作,来自行排查 Agent 故障。
若 Agent Log 中显示正常,但是在 Cloud Insight 中显示平台异常,请邮件联系 OneAPM 销售支持,我们会耐心解答您的问题。
CPU / IO Wait / Load 15 指标
另外,CPU 的数值显示:1 - system.cpu.idle
的数值,即显示 CPU 所有消耗的总和;
IO Wait 显示 system.cpu.iowait 的数值,即 CPU 在 IO 上的消耗(当然是越接近 0 越好);
Load 15 显示 system.load.15 数值,即过去 15 分钟内系统负载值,通常情况下应小于或等于 CPU 核数。
点击 system 按钮,打开平台的右侧抽屉,显示平台操作系统的详细指标。
问题详情
当平台配置了平台服务,开始监控的时候,OneAPM 端因为接收到 Agent 端传输过来的错误信息,会在这一个区域展现。
如图,MySQL 因为权限配置问题,导致 Cloud Insight Agent 没有权限收集 MySQL 数据库中的性能指标,则会发出此类错误消息。
系统信息
Cloud Insight 还可以显示平台的系统信息,如 CPU 核数、Cache 大小等等。
点击最右边的 Process,可以显示当前平台的进程信息,以及进程消耗。目前 Beta 版本的 Cloud Insight 数据传输周期为 1 分钟。