1.
故障的定義與偵測
首先對針對故障的定義,是對一
個設備、媒體、服務或軟體模組未能
在預期的狀態下工作,當偵測到故障
的發病者與發病原因
(
表一
)
,
故障管
理用不同符號與顏色以識別其嚴重程
度,以利判定優先處理病情的順位。
當狀況回復後,也能標示為已解除
(
Cleared)
的狀態。
Prime Network
提供簡單與直覺式的介面工具,包括
故障根源識別分析和來自實體拓樸和
邏輯服務變化的顯示。
主動與被動可以選擇兼具或是採
用其中一種,如果設備本身效能允許,
可採取多重告警並存的方式比較能即
時反應設備的突發狀況。
2.
故障管理名詞解釋
針對
IP
的管理系統,
Pr ime
Networ k
故 障 管 理 的 名 詞 解 釋
(
表二
)
。
在
I P d o m a i n
,
P r i m e
Network
會藉由前述
SNMP trap
、
syslog
、
polling
與遠端登入等方式
來收集設備的
event
及
alarm
,
經由
Prime Network
內 部
correlation
與重覆事件壓抑
(
suppression)
的機
制,轉換成有關連性的階層架構,並
給予最原始
alarm
一個
ticket ID
,
其
表一 告警類型
故障偵測
說明
主動告警
設 備 本 身 的 角 色 為 主 動 , 當 故 障 產 生 時, 自 行 發 送
S N M P t r a p
或
s y s l o g
至網管系統,即時性較佳。
被動告警
設 備 本 身 的 角 色 為 被 動, 由 網 管 系 統 主 動 透 過
S N M P
協定
P o l l i n g
或遠端常態登入查詢,即時性較差。
預先告警
設 備 本 身 甚 至 可 以 預 先 定 義 一 些 臨 界 值 的 管 理, 超
過 臨 界 值 時 可 以 通 知 設 備 管 理 者 及 早 發 現
(
e a r l i e r
d e t e c t i o n )
,
即
T C A ( T h r e s h o l d C r o s s i n g
A l a r m )
。
表二 故障管理的名詞解釋
名詞
說明
事件
(
Event)
表 示 在 某 個 時 間 發 生 的 特 別 事 故
(
i n c i d e n t )
,
也 許
是故障
(
f a u l t )
的一種症狀。
告警
(
Alarm)
表示一個事件的順序即整個故障的生命週期。
關連性
(
Correlation)
表 示 最 原 始 的 告 警 與 後 續 告 警 之 間 階 層 式 的 樹 系 關
係,將最原始的告警為
r o o t - c a u s e
告警。
工單
(
Ticket)
表 示 所 有 相 關 的 事 件、 告 警 、 關 連 性 所 形 成 的 一 個 物
件編號,被貼上
r o o t - c a u s e
的標籤。
242
2015
技術論壇
雲端運算與資料中心
資料儲存與備份
BYOD
與資訊安全
網路技術與應用