引言

在现代化的IT运维中，服务的稳定性和高可用性是业务连续性的基石。搭建一套高效、及时的服务监控与告警系统，是保障服务质量、快速响应故障的关键。本文将引导您快速入门，使用主流开源工具搭建一套服务监控体系，并集成企业微信，实现告警的即时推送。

第一部分：核心监控体系搭建

一个完整的监控体系通常包含数据采集、存储、可视化与告警四个核心环节。我们选择业界广泛使用的组合：Prometheus（采集与存储）、Grafana（可视化）与Alertmanager（告警路由与管理）。

1. 数据采集：Prometheus 及其 Exporter 插件

Prometheus：作为核心监控服务器，它通过“拉取”（Pull）模式从配置的目标（Targets）收集指标数据，并存储在自身的时间序列数据库中。
Exporter 插件：被监控对象需要通过Exporter暴露指标。
Node Exporter：用于监控服务器主机的基础指标，如CPU、内存、磁盘、网络等。

应用特定Exporter：如 mysqld<em>exporter 监控MySQL， redis</em>exporter 监控Redis， nginx-vts-exporter 监控Nginx等。几乎所有主流服务都有对应的Exporter。

* 快速部署：使用Docker可以快速启动Prometheus和Node Exporter。
`bash
# 启动Node Exporter（主机监控）

docker run -d --name=node-exporter -p 9100:9100 prom/node-exporter

# 启动Prometheus

创建一个prometheus.yml配置文件，定义抓取目标（如localhost:9100）

docker run -d --name=prometheus -p 9090:9090 -v /path/to/prometheus.yml:/etc/prometheus/prometheus.yml prom/prometheus
`

2. 数据可视化：Grafana

Grafana通过连接Prometheus数据源，将枯燥的指标数据转化为直观的仪表盘（Dashboard）。
快速部署：
`bash
docker run -d --name=grafana -p 3000:3000 grafana/grafana
`

访问 http://服务器IP:3000，默认账号密码为 admin/admin。首次登录后，添加数据源（Data Source），选择Prometheus，并填入地址（如 http://prometheus:9090）。之后，可以导入社区丰富的现成仪表盘模板，例如导入ID为 1860 的Node Exporter仪表盘。

3. 告警管理：Alertmanager

Prometheus负责根据预定义的规则（alert.rules）计算并触发告警，而Alertmanager则负责对这些告警进行去重、分组、静默，并通过多种渠道（如企业微信、邮件、钉钉等）发送通知。
快速部署：
`bash
docker run -d --name=alertmanager -p 9093:9093 prom/alertmanager
`

需要在Prometheus配置中，将Alertmanager指定为告警接收方。

第二部分：集成企业微信告警

实现告警推送至企业微信，主要需完成以下两步：

1. 在企业微信中创建应用并获取凭证

登录企业微信管理后台，进入「应用管理」→「自建应用」→「创建应用」。
设置应用名称（如“运维监控告警”），选择可见范围。创建成功后，记录以下关键信息：
企业ID (CorpID)：位于「我的企业」→「企业信息」中。

应用AgentId 与 应用Secret：位于刚创建的应用详情页中。

2. 配置 Alertmanager 的企业微信接收器

* 编辑Alertmanager的配置文件 alertmanager.yml，添加一个 wechat<em>config 接收器。
`yaml
global:
resolvetimeout: 5m

route:
groupby: ['alertname']
groupwait: 10s
groupinterval: 10s
repeatinterval: 1h
receiver: 'wechat' # 默认路由指向‘wechat’接收器

receivers:

- name: 'wechat'
wechat_configs:

- sendresolved: true # 发送恢复通知
corpid: '您的企业ID'
touser: '@all' # 发送给所有人，也可指定成员ID
agentid: '您的应用AgentId'
apisecret: '您的应用Secret'
apiurl: 'https://qyapi.weixin.qq.com/cgi-bin/'
`

重启Alertmanager服务使配置生效。

3. 在 Prometheus 中配置告警规则

* 编辑Prometheus的规则文件（例如 rules/node_alerts.yml），定义具体的告警条件。
`yaml
groups:

- name: host_monitoring
rules:

- alert: 主机CPU使用率过高
expr: 100 - (avg by(instance)(irate(nodecpuseconds_total{mode="idle"}[5m])) * 100) > 80
for: 2m
labels:
severity: warning
annotations:
summary: "实例 {{ $labels.instance }} CPU使用率过高"
description: "{{ $labels.instance }} 的CPU使用率持续2分钟超过80%，当前值为 {{ $value }}%"

- alert: 主机内存不足
expr: (nodememoryMemTotalbytes - nodememoryMemAvailablebytes) / nodememoryMemTotal_bytes * 100 > 85
for: 2m
labels:
severity: warning
annotations:
summary: "实例 {{ $labels.instance }} 内存使用率过高"
description: "{{ $labels.instance }} 的内存使用率持续2分钟超过85%，当前值为 {{ $value }}%"
`