告警系統
SaaS 的告警系統會根據 metricPath + operator + threshold 觸發通知。
告警概念
告警組成
每個告警包含以下資訊:
- 類型: 觸發的事件類型
- 嚴重程度: 低、中、高、緊急
- 來源: 觸發告警的場景和設備
- 時間: 事件發生時間
- 快照: 事件發生時的畫面截圖
- 詳情: 事件的詳細資訊
嚴重度
| 值 | 說明 |
|---|---|
warning | 一般告警 |
critical | 嚴重告警 |
通知渠道
SaaS 支援多種通知方式:
Email 通知
- 支援多個收件人
- 包含事件快照和詳情
- 可設定每日摘要
Webhook
整合第三方系統:
POST https://your-server.com/webhook
Content-Type: application/json
{
"alertId": "alert_123",
"type": "intrusion_detected",
"severity": "high",
"sceneId": "scene_456",
"deviceName": "入口攝影機",
"timestamp": "2024-01-01T12:00:00Z",
"snapshotUrl": "https://..."
}
事件範圍
- 告警觸發:
alert_triggered - 配額告警:
quota_warning,quota_exceeded - 設備/節點狀態:
device_offline,node_offline等
告警規則
規則配置
每個場景可以配置多個告警規則:
{
"name": "排隊人數過多警報",
"sceneId": "scene-uuid",
"severity": "warning",
"conditions": [
{
"metricPath": "current.inQueue",
"operator": "GT",
"threshold": 10
}
],
"cooldownMinutes": 5
}
觸發條件
支援的條件類型:
| 條件 | 說明 |
|---|---|
GT | 大於 |
GTE | 大於等於 |
LT | 小於 |
LTE | 小於等於 |
EQ | 等於 |
NEQ | 不等於 |
冷卻時間
避免重複告警的機制:
- 設定冷卻時間後,同一規則在冷卻期間不會重複觸發
- 建議設定 60-300 秒的冷卻時間
- 可針對不同嚴重程度設定不同冷卻時間
告警管理
批量處理
在告警列表可以批量:
- 標記為已處理
- 指派給特定人員
- 匯出告警報告
告警統計
儀表板提供告警統計:
- 每日告警趨勢
- 各類型告警分布
- 平均處理時間
- 未處理告警數量
最佳實踐
避免告警疲勞
- 合理設定觸發閾值
- 使用適當的冷卻時間
- 區分嚴重程度,優先處理重要告警
告警分類建議
| 嚴重程度 | 適用場景 | 建議處理時間 |
|---|---|---|
| 緊急 | 安全事件、系統故障 | 立即處理 |
| 高 | 重要異常 | 1 小時內 |
| 中 | 一般異常 | 當日處理 |
| 低 | 提醒性質 | 週內處理 |
整合建議
- 將 Webhook 整合到現有監控系統
- 配合值班制度設定通知
- 定期檢視告警統計,優化規則
下一步
- 告警 API - 規則與事件端點
- Webhook API - 推送設定與簽名驗證