辽比棋牌室,君搏国际堵搏网,娱乐场所管理条例四十六条(中国)·官方网站

1概述

1.1目的

初步了解hadoop，初步掌握hadoop環(huán)境的部署方法。

1.2基本概念

hadoop的核心主要包含：HDFS和MapReduce

HDFS是分布式文件系統(tǒng)，用于分布式存儲(chǔ)海量數(shù)據(jù)。

MapReduce是分布式數(shù)據(jù)處理模型，本質(zhì)是并行處理

2基本概念

2.1HDFS

2.1.1HDFS是什么？

HADOOP DISTRIBUTED FILE SYSTEM，簡(jiǎn)稱HDFS，是一個(gè)分布式文件系統(tǒng)。它是谷歌的GFS提出之后出現(xiàn)的另外一種文件系統(tǒng)。它有一定高度的容錯(cuò)性，而且提供了高吞吐量的數(shù)據(jù)訪問(wèn)，非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS 提供了一個(gè)高度容錯(cuò)性和高吞吐量的海量數(shù)據(jù)存儲(chǔ)解決方案。

在最初，HADOOP是作為Apache Nutch搜索引擎項(xiàng)目的基礎(chǔ)架構(gòu)而開發(fā)的，后來(lái)由于它獨(dú)有的特性，讓它成為HADOOP CORE項(xiàng)目的一部分。

2.1.2HDFS的設(shè)計(jì)思路？

是什么提供它高吞吐量的數(shù)據(jù)訪問(wèn)和適合大規(guī)模數(shù)據(jù)集的應(yīng)用的特性呢，這就要說(shuō)一下它的設(shè)計(jì)思路。

首先HDFS的設(shè)計(jì)之初就是針對(duì)超大文件的存儲(chǔ)的，小文件不會(huì)提高訪問(wèn)和存儲(chǔ)速度，反而會(huì)降低；其次它采用了最高效的訪問(wèn)模式，也就是經(jīng)常所說(shuō)的流式數(shù)據(jù)訪問(wèn)，特點(diǎn)就是一次寫入多次讀取；再有就是它運(yùn)行在普通的硬件之上的，即使硬件故障，也就通過(guò)容錯(cuò)來(lái)保證數(shù)據(jù)的高可用。

2.1.3HDFS的一些概念

Block：大文件的存儲(chǔ)會(huì)被分割為多個(gè)block進(jìn)行存儲(chǔ)。默認(rèn)為64MB，每一個(gè)blok會(huì)在多個(gè)datanode上存儲(chǔ)多份副本，默認(rèn)為3份。[這些設(shè)置都能夠通過(guò)配置文件進(jìn)行更改]

Namenode：主要負(fù)責(zé)存儲(chǔ)一些metadata信息，主要包括文件目錄、block和文件對(duì)應(yīng)關(guān)系，以及block和datanote的對(duì)應(yīng)關(guān)系

Datanode：負(fù)責(zé)存儲(chǔ)數(shù)據(jù)，上面我們所說(shuō)的高度的容錯(cuò)性大部分在datanode上實(shí)現(xiàn)的[還有一部分容錯(cuò)性是體現(xiàn)在namenode和secondname，還有jobtracker的容錯(cuò)等]。

2.1.4HDFS的基礎(chǔ)架構(gòu)圖

hadoop環(huán)境的基本概念和部署方法

HDFS的基礎(chǔ)架構(gòu)圖

2.1.5解析HDFS帶來(lái)的好處

高吞吐量訪問(wèn)：HDFS的每個(gè)block分布在不同的rack上，在用戶訪問(wèn)時(shí)，HDFS會(huì)計(jì)算使用最近和訪問(wèn)量最小的服務(wù)器給用戶提供。由于block在不同的rack上都有備份，所以不再是單數(shù)據(jù)訪問(wèn)，所以速度和效率是非常快的。另外HDFS可以并行從服務(wù)器集群中讀寫，增加了文件讀寫的訪問(wèn)帶寬。

高容錯(cuò)性：上面簡(jiǎn)單的介紹了一下高度容錯(cuò)。系統(tǒng)故障是不可避免的，如何做到故障之后的數(shù)據(jù)恢復(fù)和容錯(cuò)處理是至關(guān)重要的。HDFS通過(guò)多方面保證數(shù)據(jù)的可靠性，多分復(fù)制并且分布到物理位置的不同服務(wù)器上，數(shù)據(jù)校驗(yàn)功能、后臺(tái)的連續(xù)自檢數(shù)據(jù)一致性功能，都為高容錯(cuò)提供了可能。

容量擴(kuò)充：因?yàn)镠DFS的block信息存放到namenode上，文件的block分布到datanode上，當(dāng)擴(kuò)充的時(shí)候，僅僅添加datanode數(shù)量，系統(tǒng)可以在不停止服務(wù)的情況下做擴(kuò)充，不需要人工干預(yù)。

2.2MapReduce

從它名字上來(lái)看就大致可以看出個(gè)緣由，兩個(gè)動(dòng)詞Map和Reduce。

Map（展開）就是將一個(gè)任務(wù)分解成為多個(gè)任務(wù)，Reduce就是將分解后多任務(wù)處理的結(jié)果匯總起來(lái)，得出最后的分析結(jié)果。

2.2.1MapReduce原理

在Hadoop中，每個(gè)MapReduce任務(wù)都被初始化為一個(gè)Job，每個(gè)Job又可以分為兩種階段：map階段和reduce階段。這兩個(gè)階段分別用兩個(gè)函數(shù)表示，即map函數(shù)和reduce函數(shù)。map函數(shù)接收一個(gè)形式的輸入，然后同樣產(chǎn)生一個(gè)形式的中間輸出，Hadoop函數(shù)接收一個(gè)如形式的輸入，然后對(duì)這個(gè)value集合進(jìn)行處理，每個(gè)reduce產(chǎn)生0或1個(gè)輸出，reduce的輸出也是形式的。

2.2.2Map的過(guò)程

MapRunnable從input split中讀取一個(gè)個(gè)的record，然后依次調(diào)用Mapper的map函數(shù)，將結(jié)果輸出。map的輸出并不是直接寫入硬盤，而是將其寫入緩存memory buffer。當(dāng)buffer中數(shù)據(jù)的到達(dá)一定的大小，一個(gè)背景線程將數(shù)據(jù)開始寫入硬盤。在寫入硬盤之前，內(nèi)存中的數(shù)據(jù)通過(guò)partitioner分成多個(gè)partition。在同一個(gè)partition中，背景線程會(huì)將數(shù)據(jù)按照key在內(nèi)存中排序。每次從內(nèi)存向硬盤flush數(shù)據(jù)，都生成一個(gè)新的spill文件。

當(dāng)此task結(jié)束之前，所有的spill文件被合并為一個(gè)整的被partition的而且排好序的文件。reducer可以通過(guò)http協(xié)議請(qǐng)求map的輸出文件，tracker.http.threads可以設(shè)置http服務(wù)線程數(shù)。

2.2.3Reduce的過(guò)程

當(dāng)map task結(jié)束后，其通知TaskTracker，TaskTracker通知JobTracker。對(duì)于一個(gè)job，JobTracker知道TaskTracer和map輸出的對(duì)應(yīng)關(guān)系。reducer中一個(gè)線程周期性的向JobTracker請(qǐng)求map輸出的位置，直到其取得了所有的map輸出。reduce task需要其對(duì)應(yīng)的partition的所有的map輸出。reduce task中的copy過(guò)程即當(dāng)每個(gè)map task結(jié)束的時(shí)候就開始拷貝輸出，因?yàn)椴煌膍ap task完成時(shí)間不同。reduce task中有多個(gè)copy線程，可以并行拷貝map輸出。當(dāng)很多map輸出拷貝到reduce task后，一個(gè)背景線程將其合并為一個(gè)大的排好序的文件。當(dāng)所有的map輸出都拷貝到reduce task后，進(jìn)入sort過(guò)程，將所有的map輸出合并為大的排好序的文件。最后進(jìn)入reduce過(guò)程，調(diào)用reducer的reduce函數(shù)，處理排好序的輸出的每個(gè)key，最后的結(jié)果寫入HDFS。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

Hadoop

Hadoop

+關(guān)注

關(guān)注
1

文章
90

瀏覽量
16042
HDFS

HDFS

+關(guān)注

關(guān)注
1

文章
30

瀏覽量
9641

評(píng)論

相關(guān)推薦

了解虛擬電廠的基本概念

虛擬電廠的基本概念：虛擬電廠是一種基于現(xiàn)代信息技術(shù)和能源互聯(lián)網(wǎng)的能源管理模式，它將分散的、可再生能源和儲(chǔ)能設(shè)備通過(guò)虛擬化技術(shù)進(jìn)行集成和管理，形成一個(gè)具有集中調(diào)度、統(tǒng)一運(yùn)營(yíng)和優(yōu)化控制的虛擬化電力系統(tǒng)

發(fā)表于 12-24 17:12 ?226次閱讀

地線基本概念、分類及在應(yīng)用中的設(shè)計(jì)與處理方法

地線在電氣系統(tǒng)中的作用常被忽略，但它卻是保障設(shè)備運(yùn)行和人身安全的重要組成部分。本文將帶您深入了解地線的基本概念、分類及其在實(shí)際應(yīng)用中的設(shè)計(jì)與處理方法。一、地線的主要作用地線的核心功能是當(dāng)電器發(fā)生

發(fā)表于 12-03 09:55 ?782次閱讀

Linux應(yīng)用編程的基本概念

Linux應(yīng)用編程涉及到在Linux環(huán)境下開發(fā)和運(yùn)行應(yīng)用程序的一系列概念。以下是一些涵蓋Linux應(yīng)用編程的基本概念。

發(fā)表于 10-24 17:19 ?292次閱讀

集電極開路的基本概念與原理

在集成電路的廣闊領(lǐng)域中，集電極開路作為一種獨(dú)特的輸出形式，扮演著舉足輕重的角色。它如同一個(gè)精密控制的開關(guān)，既能實(shí)現(xiàn)電路的通斷，又能靈活應(yīng)對(duì)不同的電流需求。集電極開路的基本概念與原理集電極開路

發(fā)表于 09-19 10:19 ?717次閱讀

紋波電壓的基本概念、產(chǎn)生原因及測(cè)量方法

，因此對(duì)紋波電壓的研究具有重要的實(shí)際意義。紋波電壓的基本概念 2.1 紋波電壓的定義紋波電壓是指在直流電源或信號(hào)中疊加的周期性波動(dòng)電壓。紋波電壓通常表現(xiàn)為正弦波形，其頻率與電源或信號(hào)的頻率相同。紋波電壓的大小通常用

發(fā)表于 08-29 09:34 ?2671次閱讀

時(shí)序邏輯電路的基本概念、組成、分類及設(shè)計(jì)方法

時(shí)序邏輯電路是數(shù)字電路中的一種重要類型，它不僅在計(jì)算機(jī)、通信、控制等領(lǐng)域有著廣泛的應(yīng)用，而且對(duì)于理解和設(shè)計(jì)現(xiàn)代電子系統(tǒng)具有重要意義。 1. 時(shí)序邏輯電路的基本概念 時(shí)序邏輯電路（Sequential

發(fā)表于 08-28 11:45 ?2401次閱讀

socket的基本概念和原理

的通信。它是一個(gè)抽象的概念，用于表示網(wǎng)絡(luò)中的一個(gè)通信實(shí)體。在計(jì)算機(jī)網(wǎng)絡(luò)中，Socket允許應(yīng)用程序通過(guò)網(wǎng)絡(luò)發(fā)送和接收數(shù)據(jù)。Socket的概念最早由UNIX操作系統(tǒng)引入，后來(lái)被廣泛應(yīng)用于各種操作系統(tǒng)和編程語(yǔ)言中。 2. Socket的基本

發(fā)表于 08-16 10:51 ?1425次閱讀

BP網(wǎng)絡(luò)的基本概念和訓(xùn)練原理

）的多層前饋神經(jīng)網(wǎng)絡(luò)。BP網(wǎng)絡(luò)自1985年提出以來(lái)，因其強(qiáng)大的學(xué)習(xí)和適應(yīng)能力，在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、模式識(shí)別等領(lǐng)域得到了廣泛應(yīng)用。以下將對(duì)BP網(wǎng)絡(luò)的基本概念、訓(xùn)練原理及其優(yōu)缺點(diǎn)進(jìn)行詳細(xì)闡述。

發(fā)表于 07-19 17:24 ?1855次閱讀

卷積神經(jīng)網(wǎng)絡(luò)的基本概念、原理及特點(diǎn)

的基本概念、原理、特點(diǎn)以及在不同領(lǐng)域的應(yīng)用情況。一、卷積神經(jīng)網(wǎng)絡(luò)的基本概念 卷積神經(jīng)網(wǎng)絡(luò)是一種深度學(xué)習(xí)算法，它由多層卷積層和池化層堆疊而成。卷積層負(fù)責(zé)提取圖像中的局部特征，而池化層則負(fù)責(zé)降低特征的空間維度，同時(shí)增加對(duì)圖像位移的不變性。通過(guò)這種方式，CNN能夠自

發(fā)表于 07-11 14:38 ?1349次閱讀

遷移學(xué)習(xí)的基本概念和實(shí)現(xiàn)方法

遷移學(xué)習(xí)（Transfer Learning）是機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念，其核心思想是利用在一個(gè)任務(wù)或領(lǐng)域中學(xué)到的知識(shí)來(lái)加速或改進(jìn)另一個(gè)相關(guān)任務(wù)或領(lǐng)域的學(xué)習(xí)過(guò)程。這種方法在數(shù)據(jù)稀缺或領(lǐng)域遷移的情況下尤為有效，因?yàn)樗軌蝻@著減少對(duì)大量標(biāo)記數(shù)據(jù)的需求，提高模型的學(xué)習(xí)效率和

發(fā)表于 07-04 17:30 ?1952次閱讀

循環(huán)神經(jīng)網(wǎng)絡(luò)的基本概念

循環(huán)神經(jīng)網(wǎng)絡(luò)的基本概念、循環(huán)機(jī)制、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（LSTM）、門控循環(huán)單元（GRU）等方面進(jìn)行介紹。循環(huán)神經(jīng)網(wǎng)絡(luò)的基本概念 循環(huán)神經(jīng)網(wǎng)絡(luò)是一種時(shí)間序列模型，其基本思想是將序列數(shù)據(jù)中的每個(gè)元素（例如，單詞、時(shí)間點(diǎn)等）作為輸入，通過(guò)循環(huán)結(jié)構(gòu)將前一個(gè)時(shí)間步的

發(fā)表于 07-04 14:31 ?820次閱讀

組合邏輯控制器的基本概念、實(shí)現(xiàn)原理及設(shè)計(jì)方法

廣泛應(yīng)用于計(jì)算機(jī)、通信、控制等領(lǐng)域。本文將詳細(xì)介紹組合邏輯控制器的基本概念、實(shí)現(xiàn)原理、設(shè)計(jì)方法、應(yīng)用場(chǎng)景等方面的內(nèi)容，以幫助讀者全面了解組合邏輯控制器。 基本概念 1.1 組合邏輯組合邏輯（Combinatorial Log

發(fā)表于 06-30 10:26 ?2427次閱讀

串口通信的基本概念

串口通信（Serial Communications）的基本概念可以歸納為以下幾個(gè)方面：

發(fā)表于 06-12 09:28 ?860次閱讀

頻率計(jì)的基本概念和組成部分

在現(xiàn)代電子科技領(lǐng)域，信號(hào)的頻率測(cè)量是不可或缺的一部分。頻率計(jì)，作為專門用于測(cè)量信號(hào)頻率的電子設(shè)備，其精準(zhǔn)度和可靠性對(duì)于電子設(shè)備的調(diào)試、維護(hù)和研發(fā)都至關(guān)重要。本文將詳細(xì)介紹頻率計(jì)的基本概念、工作原理、組成部分、應(yīng)用領(lǐng)域、使用方法及注意事項(xiàng)，以期為讀者提供全面的了解和指導(dǎo)。

發(fā)表于 05-15 16:52 ?1373次閱讀

毫伏表的基本概念和工作原理毫伏表的應(yīng)用領(lǐng)域和使用方法

和靈敏度在電壓測(cè)量領(lǐng)域具有舉足輕重的地位。本文將對(duì)毫伏表的基本概念、工作原理、應(yīng)用領(lǐng)域、使用方法以及發(fā)展趨勢(shì)等方面進(jìn)行詳細(xì)闡述，以期為讀者提供一份全面深入的毫伏表知識(shí)手冊(cè)。

發(fā)表于 05-11 15:52 ?2578次閱讀

衡阳派盒市场营销有限公司

搜索歷史

hadoop環(huán)境的基本概念和部署方法

評(píng)論

了解虛擬電廠的基本概念

地線基本概念、分類及在應(yīng)用中的設(shè)計(jì)與處理方法

Linux應(yīng)用編程的基本概念

集電極開路的基本概念與原理

紋波電壓的基本概念、產(chǎn)生原因及測(cè)量方法

時(shí)序邏輯電路的基本概念、組成、分類及設(shè)計(jì)方法

socket的基本概念和原理

BP網(wǎng)絡(luò)的基本概念和訓(xùn)練原理

卷積神經(jīng)網(wǎng)絡(luò)的基本概念、原理及特點(diǎn)

遷移學(xué)習(xí)的基本概念和實(shí)現(xiàn)方法

循環(huán)神經(jīng)網(wǎng)絡(luò)的基本概念

組合邏輯控制器的基本概念、實(shí)現(xiàn)原理及設(shè)計(jì)方法

串口通信的基本概念

頻率計(jì)的基本概念和組成部分

毫伏表的基本概念和工作原理毫伏表的應(yīng)用領(lǐng)域和使用方法