1.
伺服器
每台實體伺服器處理器建議最
少要配置兩顆實體處理器,每顆實體
處理器核心不可以少於
4
核心,並
且 開 啟
Hyper Treading
(
HT
)
功
能。記憶體部份每核心最少要配置
4
GB
以上記憶體,且需預留
6%
。
網
路卡部份建議至少需
4
埠
10
GbE
網
路卡,兩埠做為運算叢集傳輸用網
路,兩埠做為
vSphere
管理用網卡
(
vmKernel
、
vMotion
、
FT
、
HA
、
Management)
使用。
伺服器上硬碟配置建議使用小容
量多顆硬碟配置,
Hadoop
運算需
要大量
IOPS
需求,大量
IOPS
需要
由多顆硬碟所題供,而
SAS
或
SATA
硬碟單顆
IOPS
並不會因為容量變大
而跟著成長,所以當空間需求假設為
3
TB
,
300
GB SAS
硬 碟 需 要
10
顆
(
IOPS
為
1750)
,
600
GB
只 要
5
顆
(
IOPS
為
875)
,
那麼
300
GB
配置效
能會遠優於
600
GB
配置。
2.
虛擬化系統配置
運算叢集
(
Data Node)
與管理
用節點
(
Name Node)
。
Job Tracker
虛擬機需配置在一
個
NUMA
節點上,並且讀取本地記
憶體以取得更低的延遲時間。
Data Node
虛擬機分配最少的
伺服器上儲存裝置,最好低於三個以
上,
Hadoop
對於
I/O
效能非常要
求,建議每個儲存裝置最好避免設定
RAID
,
因為設定
RAID
之後會有所
謂的
RAID
效能損耗會影響到效能,
每一個實體儲存裝置建議建立一個
Data Store
,
以取得最好的效能。
3.
系統配置
Big Data Extension
將會自動
設定
Hadoop
作業系統參數以及優
化各項參數,如對運算效能十分要求
的話,建議
Hadoop
作業系統換成
CentOS6.x
版本,因為
Linux 6.X
的
Transparent HugePage (THP)
以
及
Extender Page Tables(EPT )
,
在虛擬化環境會為
Hadoop
帶來不
錯的效能。
4.
網路配置
Hadoop
運算叢集網路及管理
用網路
(
如
vmKernel
、
vMotion
、
FT
、
HA
、
Management)
建 議 實
體 分 離, 在
vSphere
設 定 為 不 同
vSwitch
,
實體網路交換器建議最好
是能夠是分開為不同交換器。
5.
橫向擴充建議
當
Hadoop
運算叢集處理器經
常維持在
80%
以上,建議擴充新的
運算節點,另外每個儲存節點空間建
議不要超過
24
TB
,
因為內部是採用
複製方式提供運算叢集高可用性,所
以當某個節點出現問題時,其資料複
製會因為資料過大造成網路擁塞,進
而影響到整體運算叢集效能。
七、結語
VMware
參與
Hadoop
開放源
始碼組織多年,藉由
Hadoop
底層
與
VMware
優異虛擬化技術及效能,
為
Hadoop
運算平台帶來更容易管
066
2015
技術論壇
雲端運算與資料中心
資料儲存與備份
BYOD
與資訊安全
網路技術與應用