云效以健康分表示应用的可用性,健康分满分100,其中:
- 绿色(健康):80分以上,表示应用处于健康状态,各项指标基本正常。
- 黄色(警示):60~80分,表示部分功能或子模块不可用,建议进入应用监控页面作进一步分析。
- 红色(异常):60分以下,表示核心功能存在问题,主流程不可用,应立即处理。
各应用健康分的计算方式
应用 | 健康分计算方式 |
---|---|
底座 | 整体CPU占用率 > 70%,健康分-20 整体CPU占用率 > 90%,健康分-40 整体内存使用率 > 70%,健康分-20 整体内存使用率 > 90%,健康分-40 grpc接口成功率 < 98%,健康分-20 grpc接口成功率 < 96%,健康分-40 4个核心接口的p99响应时间,如有超过阈值,每个-40 |
项目协作 | cpu使用率 > 70%,健康分-20 cpu使用率 > 90%,健康分-40 内存使用率 > 70%,健康分-20 内存使用率 > 90%,健康分-40 核心接口成功率 < 95%,健康分-20 核心接口成功率 < 90%,健康分-40 ES连接成功率1分钟平均 < 90%,健康分-20 ES连接成功率1分钟平均 < 70%,健康分-40 MQ连接成功率1分钟平均 < 90%,健康分-40 |
代码托管 | 关键应用cpu使用率 > 80%,健康分-25 git页面端和命令行成功率 < 90%,健康分-15 git页面端和命令行成功率 < 80%,健康分-25 关键应用请求成功率 < 95%,健康分-20 关键应用请求成功率 < 90%,健康分-40 接口p95 RT > 1000ms,健康分-20 接口p95 RT > 2000ms,健康分-40 MySQL RT > 500ms,健康分-20 MySQL RT > 1000ms,健康分-40 仓库锁RT > 100ms,健康分-20 仓库锁RT > 200ms,健康分-40 RMQ 失败率 > 2%,健康分-20 RMQ 失败率 > 5%,健康分-40 satellite磁盘使用率 > 80%,健康分-20 satellite磁盘使用率 > 90%,健康分-40 satellite磁盘IO使用率 > 80%,健康分-20 satellite磁盘IO使用率 > 90%,健康分-40 |
测试管理 | 包含在项目管理中 |
效能洞察 | 数据库及核心接口成功率 < 90%,健康分-40 redis操作成功率 < 90%,健康分-40 数据任务延迟 > 60分钟,健康分-40 cpu使用率 > 90%,健康分-40 内存使用率 > 90%,健康分-40 |
流水线 | 关键应用cpu使用率 > 80%,健康分-20 关键应用内存使用率 > 80%,健康分-20 关键应用接口成功率 < 90%,健康分-20 部署任务触发成功率 < 90%,健康分-20 触发流水线成功率 < 90%,健康分-20 构建环境申请成功率 < 90%,健康分-20 构建任务下发成功率 < 90%,健康分-20 |
应用交付 | cpu使用率 > 70%,健康分-20 cpu使用率 > 90%,健康分-40 内存使用率 > 70%,健康分-20 内存使用率 > 90%,健康分-40 MQ调用成功率 < 90%,健康分-10 创建部署单成功率 < 80%,健康分-50 环境页面访问成功率 < 80%,健康分-50 部署调度有失败,健康分-20 |
制品库 | Pod五分钟内的负载 > 2倍cpu limit,健康分-30 Npm协议接口熔断率 > 20%,健康分-10 协议接口成功率 < 90%,健康分-30 磁盘使用率 > 80%,健康分-10 活跃连接数/最大连接数 > 80%,健康分-10 Mysql CPU > 80% ,健康分-10 |
搜索 | cpu使用率 > 70%,健康分-20 cpu使用率 > 90%,健康分-40 内存使用率 > 70%,健康分-20 内存使用率 > 90%,健康分-40 任务延迟 > 15分钟,健康分-20 任务延迟 > 60分钟,健康分-40 接口P95耗时1分钟平均 > 1000ms,健康分-20 接口P95耗时1分钟平均 > 2000ms,健康分-40 接口成功率1分钟平均 < 90%,健康分-20 接口成功率1分钟平均 < 70%,健康分-40 ES连接成功率1分钟平均 < 90%,健康分-20 ES连接成功率1分钟平均 < 70%,健康分-40 |