Hadoop
Apache
基金會的一個開源專案計劃,最初是使用
Lucene
的子項
Nutch
做為搜尋引擎的一部分。
Hadoop
是以
JAVA
寫成的,可以提供巨
量資料的分散式運算環境,而
Hadoop
它的架構是由
Google Lab
開發的
Big
Table
Google File System(GFS)
的概念實做而成。
一、
Hadoop
架構
Hadoop
由許多元素構成,採
Master/Slave
架 構。 其 最 底 層
元 件 是
Hadoop Distributed File
System(HDFS
),
儲存運算叢集中
所有
Data Node
上的檔案。
HDFS
的 上 一 層 是
Map Reduce
是 由
Job Trackers
Task Trackers
(
圖一
)
HDFS
就像一個傳統的檔案系
統。 可 以
Create
Delete
Move
Rename
檔案等等。但是
HDFS
的架構是基於一組特定的節點建構
的,這是由它自身的特點決定的。
這些節點包括
Name Node
它在
HDFS
內部提供中繼資料服務。
Data
Node
HDFS
提供儲存。由於只存
在一個
Name Node
上,並不具備
防止單點故障功能,這是
HDFS
的一
個缺點。
Name Node
是在
HDFS
中的
建 構 輕 鬆 管 理 易於 擴 充 的
Hadoop
運算環境
高鈺棟
一台單獨機器執行的軟體。它負責管
理檔案系統名稱空間和控制外部存
取。
Name Node
並不具備防止單點
故障功能。
Data Node
是由許多個的節點
擔任,一個資料檔會被切割成數個較
小的資料區塊,並且儲存在不同的
Data Node
上,每一個區塊還會有
數份副本存放在不同節點,這樣當其
中一個節點損壞時,檔案系統中的資
料還能保存無缺。
二、
vSphere
高 可 用 度 提 供
Hadoop
穩定運算平台
Hadoop
技術做為一個開放源
始碼分散式運算平台,近幾年已被大
家做為巨量資料運算標準平台,而
Hadoop
需要實體伺服器、儲存設備
等專屬硬體,運算能力取決於實體伺
服器多寡,當硬體越多其管理及部署、
安全性、網路等設計就相對於複雜,
061
Technology Forum 2015
雲端
資料
BYOD
與資
網路