Page 61 - 麟瑞科技2015科技論壇

Basic HTML Version

Hadoop

是

Apache

基金會的一個開源專案計劃，最初是使用

Lucene

的子項

目

Nutch

做為搜尋引擎的一部分。

Hadoop

是以

JAVA

寫成的，可以提供巨

量資料的分散式運算環境，而

Hadoop

它的架構是由

Google Lab

開發的

Big

Table

和

Google File System(GFS)

的概念實做而成。

一、

Hadoop

架構

Hadoop

由許多元素構成，採

用

Master/Slave

架構。其最底層

元件是

Hadoop Distributed File

System(HDFS

），

儲存運算叢集中

所有

Data Node

上的檔案。

HDFS

的上一層是

Map Reduce

，

是由

Job Trackers

和

Task Trackers

組

成

(

圖一

)

。

HDFS

就像一個傳統的檔案系

統。可以

Create

、

Delete

、

Move

或

Rename

檔案等等。但是

HDFS

的架構是基於一組特定的節點建構

的，這是由它自身的特點決定的。

這些節點包括

Name Node

，

它在

HDFS

內部提供中繼資料服務。

Data

Node

為

HDFS

提供儲存。由於只存

在一個

Name Node

上，並不具備

防止單點故障功能，這是

HDFS

的一

個缺點。

Name Node

是在

HDFS

中的

建構輕鬆管理易於擴充的

Hadoop

運算環境

高鈺棟

一台單獨機器執行的軟體。它負責管

理檔案系統名稱空間和控制外部存

取。

Name Node

並不具備防止單點

故障功能。

Data Node

是由許多個的節點

擔任，一個資料檔會被切割成數個較

小的資料區塊，並且儲存在不同的

Data Node

上，每一個區塊還會有

數份副本存放在不同節點，這樣當其

中一個節點損壞時，檔案系統中的資

料還能保存無缺。

二、

vSphere

高可用度提供

Hadoop

穩定運算平台

Hadoop

技術做為一個開放源

始碼分散式運算平台，近幾年已被大

家做為巨量資料運算標準平台，而

Hadoop

需要實體伺服器、儲存設備

等專屬硬體，運算能力取決於實體伺

服器多寡，當硬體越多其管理及部署、

安全性、網路等設計就相對於複雜，

061

Technology Forum 2015

雲端

資料

BYOD

與資

網路

Page 62

Page 60