Hadoop
是
Apache
基金會的一個開源專案計劃,最初是使用
Lucene
的子項
目
Nutch
做為搜尋引擎的一部分。
Hadoop
是以
JAVA
寫成的,可以提供巨
量資料的分散式運算環境,而
Hadoop
它的架構是由
Google Lab
開發的
Big
Table
和
Google File System(GFS)
的概念實做而成。
一、
Hadoop
架構
Hadoop
由許多元素構成,採
用
Master/Slave
架 構。 其 最 底 層
元 件 是
Hadoop Distributed File
System(HDFS
),
儲存運算叢集中
所有
Data Node
上的檔案。
HDFS
的 上 一 層 是
Map Reduce
,
是 由
Job Trackers
和
Task Trackers
組
成
(
圖一
)
。
HDFS
就像一個傳統的檔案系
統。 可 以
Create
、
Delete
、
Move
或
Rename
檔案等等。但是
HDFS
的架構是基於一組特定的節點建構
的,這是由它自身的特點決定的。
這些節點包括
Name Node
,
它在
HDFS
內部提供中繼資料服務。
Data
Node
為
HDFS
提供儲存。由於只存
在一個
Name Node
上,並不具備
防止單點故障功能,這是
HDFS
的一
個缺點。
Name Node
是在
HDFS
中的
建 構 輕 鬆 管 理 易於 擴 充 的
Hadoop
運算環境
高鈺棟
一台單獨機器執行的軟體。它負責管
理檔案系統名稱空間和控制外部存
取。
Name Node
並不具備防止單點
故障功能。
Data Node
是由許多個的節點
擔任,一個資料檔會被切割成數個較
小的資料區塊,並且儲存在不同的
Data Node
上,每一個區塊還會有
數份副本存放在不同節點,這樣當其
中一個節點損壞時,檔案系統中的資
料還能保存無缺。
二、
vSphere
高 可 用 度 提 供
Hadoop
穩定運算平台
Hadoop
技術做為一個開放源
始碼分散式運算平台,近幾年已被大
家做為巨量資料運算標準平台,而
Hadoop
需要實體伺服器、儲存設備
等專屬硬體,運算能力取決於實體伺
服器多寡,當硬體越多其管理及部署、
安全性、網路等設計就相對於複雜,
061
Technology Forum 2015
雲端
資料
BYOD
與資
網路