Page 242 - 麟瑞科技2015科技論壇

Basic HTML Version

1.

故障的定義與偵測

首先對針對故障的定義，是對一

個設備、媒體、服務或軟體模組未能

在預期的狀態下工作，當偵測到故障

的發病者與發病原因

(

表一

)

，

故障管

理用不同符號與顏色以識別其嚴重程

度，以利判定優先處理病情的順位。

當狀況回復後，也能標示為已解除

(

Cleared)

的狀態。

Prime Network

提供簡單與直覺式的介面工具，包括

故障根源識別分析和來自實體拓樸和

邏輯服務變化的顯示。

主動與被動可以選擇兼具或是採

用其中一種，如果設備本身效能允許，

可採取多重告警並存的方式比較能即

時反應設備的突發狀況。

2.

故障管理名詞解釋

針對

IP

的管理系統，

Pr ime

Networ k

故障管理的名詞解釋

(

表二

)

。

在

I P d o m a i n

，

P r i m e

Network

會藉由前述

SNMP trap

、

syslog

、

polling

與遠端登入等方式

來收集設備的

event

及

alarm

，

經由

Prime Network

內部

correlation

與重覆事件壓抑

(

suppression)

的機

制，轉換成有關連性的階層架構，並

給予最原始

alarm

一個

ticket ID

，

其

表一　告警類型

故障偵測

說明

主動告警

設備本身的角色為主動，當故障產生時，自行發送

S N M P t r a p

或

s y s l o g

至網管系統，即時性較佳。

被動告警

設備本身的角色為被動，由網管系統主動透過

S N M P

協定

P o l l i n g

或遠端常態登入查詢，即時性較差。

預先告警

設備本身甚至可以預先定義一些臨界值的管理，超

過臨界值時可以通知設備管理者及早發現

(

e a r l i e r

d e t e c t i o n )

，

即

T C A ( T h r e s h o l d C r o s s i n g

A l a r m )

。

表二　故障管理的名詞解釋

名詞

說明

事件

(

Event)

表示在某個時間發生的特別事故

(

i n c i d e n t )

，

也許

是故障

(

f a u l t )

的一種症狀。

告警

(

Alarm)

表示一個事件的順序即整個故障的生命週期。

關連性

(

Correlation)

表示最原始的告警與後續告警之間階層式的樹系關

係，將最原始的告警為

r o o t - c a u s e

告警。

工單

(

Ticket)

表示所有相關的事件、告警、關連性所形成的一個物

件編號，被貼上

r o o t - c a u s e

的標籤。

242

2015

技術論壇

雲端運算與資料中心

資料儲存與備份

BYOD

與資訊安全

網路技術與應用

Page 243

Page 241