有一點點的風吹草動,因為
SNMP
trap
syslog
的主動機制特性產生
了後遺症,再加上再從後續的設備產
生的告警,往往就會氾濫成災。對管
理者來說,短時間內淹沒在太多的訊
息中,也很難馬上縮小範圍查出發生
什麼狀況了。利用以下兩點:
(1)
重 覆 事 件 刪 除
(
De-
duplication)
功 能, 例 如
flapping events
例如網路連
線斷斷續續的。
(2)
雷同的事件合併
(
Correlation)
自動關連
alarm
之間的因果
關係。
Local
關連:報警從單一的網
路設備發出。
Topology-based
關連:報
警從多個網路設備發出。
大幅減少使用者介面在
alarm
量上的顯示。
5.
Root-cause
分析
好的故障管理系統可以分辨出:
(1)
什麼訊息要收集?
(2)
什麼是可接受的值?
(3)
何 訊 息 是 根 本 原 因
(
root-
cause)
由 滑 鼠 右 鍵 檢 視 某 一
ticket
ID=80
之屬性及進一步的詳細資訊,
可列出針對此事件的相關歷史紀錄
(
八左
)
ticket ID=80
有相關的事件
關連性
(
圖八右
)
有助於大量壓縮相
關的事件數量。
三、異質
Domain
故障管理的解
決方法
IP
的網路架構上,
IP
的訊務
直接在光的設備上跑是最簡單有效率
的,所以高階
IP
骨幹路由器上有高速
DWDM
的介面已是時代的趨勢。
網管系統要能同時管理
IP
Optical
兩種不同的
domain
才不會有盲點,
其中在骨幹設備故障管理的部份,光
IP
兩者會是最直接相關的。
Prime Central
扮 演
Prime
Carrier Management
系統
Portal
的 角 色。
Prime Central
接 收 來 自
Prime Optical
fault ID
Prime
圖八 工單的事件
History
Correlation
關係
246
2015
技術論壇
雲端運算與資料中心
資料儲存與備份
BYOD
與資訊安全
網路技術與應用