請教hadoop2.0的ha如何配置 hadoop2.2.0配置了HA,今天發(fā)現(xiàn)它自動切換了?什么...
1 Hadoop HA架構(gòu)詳解
1.1 HDFS HA背景
HDFS集群中NameNode 存在單點故障(SPOF)。對于只有一個NameNode的集群,如果NameNode機器出現(xiàn)意外情況,將導(dǎo)致整個集群無法使用,直到NameNode 重新啟動。
影響HDFS集群不可用主要包括以下兩種情況:一是NameNode機器宕機,將導(dǎo)致集群不可用,重啟NameNode之后才可使用;二是計劃內(nèi)的NameNode節(jié)點軟件或硬件升級,導(dǎo)致集群在短時間內(nèi)不可用。
為了解決上述問題,Hadoop給出了HDFS的高可用HA方案:HDFS通常由兩個NameNode組成,一個處于active狀態(tài),另一個處于standby狀態(tài)。Active NameNode對外提供服務(wù),比如處理來自客戶端的RPC請求,而Standby NameNode則不對外提供服務(wù),僅同步Active NameNode的狀態(tài),以便能夠在它失敗時快速進(jìn)行切換。
1.2 HDFS HA架構(gòu)
一個典型的HA集群,NameNode會被配置在兩臺獨立的機器上,在任何時間上,一個NameNode處于活動狀態(tài),而另一個NameNode處于備份狀態(tài),活動狀態(tài)的NameNode會響應(yīng)集群中所有的客戶端,備份狀態(tài)的NameNode只是作為一個副本,保證在必要的時候提供一個快速的轉(zhuǎn)移。
為了讓Standby Node與Active Node保持同步,這兩個Node都與一組稱為JNS的互相獨立的進(jìn)程保持通信(Journal Nodes)。當(dāng)Active Node上更新了namespace,它將記錄修改日志發(fā)送給JNS的多數(shù)派。Standby noes將會從JNS中讀取這些edits,并持續(xù)關(guān)注它們對日志的變更。Standby Node將日志變更應(yīng)用在自己的namespace中,當(dāng)failover發(fā)生時,Standby將會在提升自己為Active之前,確保能夠從JNS中讀取所有的edits,即在failover發(fā)生之前Standy持有的namespace應(yīng)該與Active保持完全同步。
為了支持快速failover,Standby node持有集群中blocks的最新位置是非常必要的。為了達(dá)到這一目的,DataNodes上需要同時配置這兩個Namenode的地址,同時和它們都建立心跳鏈接,并把block位置發(fā)送給它們。
任何時刻,只有一個Active NameNode是非常重要的,否則將會導(dǎo)致集群操作的混亂,那么兩個NameNode將會分別有兩種不同的數(shù)據(jù)狀態(tài),可能會導(dǎo)致數(shù)據(jù)丟失,或者狀態(tài)異常,這種情況通常稱為“split-brain”(腦裂,三節(jié)點通訊阻斷,即集群中不同的Datanodes卻看到了兩個Active NameNodes)。對于JNS而言,任何時候只允許一個NameNode作為writer;在failover期間,原來的Standby Node將會接管Active的所有職能,并負(fù)責(zé)向JNS寫入日志記錄,這就阻止了其他NameNode基于處于Active狀態(tài)的問題。
基于QJM的HDFS HA方案如上圖所示,其處理流程為:集群啟動后一個NameNode處于Active狀態(tài),并提供服務(wù),處理客戶端和DataNode的請求,并把editlog寫到本地和share editlog(這里是QJM)中。另外一個NameNode處于Standby狀態(tài),它啟動的時候加載fsimage,然后周期性的從share editlog中獲取editlog,保持與Active節(jié)點的狀態(tài)同步。為了實現(xiàn)Standby在Active掛掉后迅速提供服務(wù),需要DataNode同時向兩個NameNode匯報,使得Stadnby保存block to DataNode信息,因為NameNode啟動中最費時的工作是處理所有DataNode的blockreport。為了實現(xiàn)熱備,增加FailoverController和Zookeeper,F(xiàn)ailoverController與Zookeeper通信,通過Zookeeper選舉機制,F(xiàn)ailoverController通過RPC讓NameNode轉(zhuǎn)換為Active或Standby。
1.3 HDFS HA配置要素
NameNode機器:兩臺配置對等的物理機器,它們分別運行Active和Standby Node。
JouralNode機器:運行JouralNodes的機器。JouralNode守護(hù)進(jìn)程相當(dāng)?shù)妮p量級,可以和Hadoop的其他進(jìn)程部署在一起,比如NameNode、DataNode、ResourceManager等,至少需要3個且為奇數(shù),如果你運行了N個JNS,那么它可以允許(N-1)/2個JNS進(jìn)程失效并且不影響工作。
在HA集群中,Standby NameNode還會對namespace進(jìn)行checkpoint操作(繼承Backup Namenode的特性),因此不需要在HA集群中運行SecondaryNameNode、CheckpointNode或者BackupNode。
1.4 HDFS HA配置參數(shù)
需要在hdfs.xml中配置如下參數(shù):
dfs.nameservices:HDFS NN的邏輯名稱,例如myhdfs。
dfs.ha.namenodes.myhdfs:給定服務(wù)邏輯名稱myhdfs的節(jié)點列表,如nn1、nn2。
dfs.namenode.rpc-address.myhdfs.nn1:myhdfs中nn1對外服務(wù)的RPC地址。
dfs.namenode.http-address.myhdfs.nn1:myhdfs中nn1對外服務(wù)http地址。
dfs.namenode.shared.edits.dir:JournalNode的服務(wù)地址。
dfs.journalnode.edits.dir:JournalNode在本地磁盤存放數(shù)據(jù)的位置。
dfs.ha.automatic-failover.enabled:是否開啟NameNode失敗自動切換。
dfs.ha.fencing.methods :配置隔離機制,通常為sshfence。
1.5 HDFS自動故障轉(zhuǎn)移
HDFS的自動故障轉(zhuǎn)移主要由Zookeeper和ZKFC兩個組件組成。
Zookeeper集群作用主要有:一是故障監(jiān)控。每個NameNode將會和Zookeeper建立一個持久session,如果NameNode失效,那么此session將會過期失效,此后Zookeeper將會通知另一個Namenode,然后觸發(fā)Failover;二是NameNode選舉。ZooKeeper提供了簡單的機制來實現(xiàn)Acitve Node選舉,如果當(dāng)前Active失效,Standby將會獲取一個特定的排他鎖,那么獲取鎖的Node接下來將會成為Active。
ZKFC是一個Zookeeper的客戶端,它主要用來監(jiān)測和管理NameNodes的狀態(tài),每個NameNode機器上都會運行一個ZKFC程序,它的職責(zé)主要有:一是健康監(jiān)控。ZKFC間歇性的ping NameNode,得到NameNode返回狀態(tài),如果NameNode失效或者不健康,那么ZKFS將會標(biāo)記其為不健康;二是Zookeeper會話管理。當(dāng)本地NaneNode運行良好時,ZKFC將會持有一個Zookeeper session,如果本地NameNode為Active,它同時也持有一個“排他鎖”znode,如果session過期,那么次lock所對應(yīng)的znode也將被刪除;三是選舉。當(dāng)集群中其中一個NameNode宕機,Zookeeper會自動將另一個激活。
1.6 YARN HA架構(gòu)
YARN的HA架構(gòu)和HDFSHA類似,需要啟動兩個ResourceManager,這兩個ResourceManager會向ZooKeeper集群注冊,通過ZooKeeper管理它們的狀態(tài)(Active或Standby)并進(jìn)行自動故障轉(zhuǎn)移。
2 高可用集群規(guī)劃
2.1 集群規(guī)劃
根據(jù)Hadoop的HA架構(gòu)分析,規(guī)劃整個集群由5臺主機組成,具體情況如下表所示:
主機名
IP地址
安裝的軟件
JPS
hadoop-master1
172.16.20.81
Jdk/hadoop
Namenode/zkfc/resourcemanager/
JobHistoryServer
hadoop-master2
172.16.20.82
Jdk/hadoop
Namenode/zkfc/resourcemanager/
WebProxyServer
hadoop-slave1
172.16.20.83
Jkd/hadoop/zookeepe
Datanode/journalnode/nodemanager/
quorumPeerMain
hadoop-slave2
172.16.20.84
Jkd/hadoop/zookeeper
Datanode/journalnode/nodemanager/
quorumPeerMain
hadoop-slave3
172.16.20.85
Jkd/hadoop/zookeeper
Datanode/journalnode/nodemanager/
quorumPeerMain
需要說明以下幾點:
HDFS HA通常由兩個NameNode組成,一個處于Active狀態(tài),另一個處于Standby狀態(tài)。Active NameNode對外提供服務(wù),而Standby NameNode則不對外提供服務(wù),僅同步Active NameNode的狀態(tài),以便能夠在它失敗時快速進(jìn)行切換。
Hadoop 2.0官方提供了兩種HDFS HA的解決方案,一種是NFS,另一種是QJM。這里我們使用簡單的QJM。在該方案中,主備NameNode之間通過一組JournalNode同步元數(shù)據(jù)信息,一條數(shù)據(jù)只要成功寫入多數(shù)JournalNode即認(rèn)為寫入成功。通常配置奇數(shù)個JournalNode,這里還配置了一個Zookeeper集群,用于ZKFC故障轉(zhuǎn)移,當(dāng)Active NameNode掛掉了,會自動切換Standby NameNode為Active狀態(tài)。
YARN的ResourceManager也存在單點故障問題,這個問題在hadoop-2.4.1得到了解決:有兩個ResourceManager,一個是Active,一個是Standby,狀態(tài)由zookeeper進(jìn)行協(xié)調(diào)。
YARN框架下的MapReduce可以開啟JobHistoryServer來記錄歷史任務(wù)信息,否則只能查看當(dāng)前正在執(zhí)行的任務(wù)信息。
Zookeeper的作用是負(fù)責(zé)HDFS中NameNode主備節(jié)點的選舉,和YARN框架下ResourceManaer主備節(jié)點的選舉。
2.2 軟件版本
操作系統(tǒng):CentOS Linux release 7.0.1406
JDK:Java(TM)SE Runtime Environment (build 1.7.0_79-b15)
Hadoop:Hadoop 2.6.0-cdh5.7.1
ZooKeeper:zookeeper-3.4.5-cdh5.7.1
3 Linux環(huán)境準(zhǔn)備
集群各節(jié)點進(jìn)行如下修改配置:
3.1 創(chuàng)建用戶并添加權(quán)限
// 切換root用戶
$ su root
// 創(chuàng)建hadoop用戶組
# groupadd hadoop
// 在hadoop用戶組中創(chuàng)建hadoop用戶
# useradd -g hadoop hadoop
// 修改用戶hadoop密碼
# passwd hadoop
// 修改sudoers配置文件給hadoop用戶添加sudo權(quán)限
# vim /etc/sudoers
hadoop ALL=(ALL) ALL
// 測試是否添加權(quán)限成功
# exit
$ sudo ls /root
3.2 修改IP地址和主機名
// 切換root用戶
$ su root
// 修改本機IP地址
# vim /etc/sysconfig/network-scripts/ifcfg-eth0
// 重啟網(wǎng)絡(luò)服務(wù)
# service network restart
// 修改主機名
# hostnamectl set-hostname 主機名
// 查看主機名
# hostnamectl status
3.3 設(shè)置IP地址與主機名映射
// 切換root用戶
$ su root
// 編輯hosts文件
# vim /etc/hosts
172.16.20.81 hadoop-master1
172.16.20.82 hadoop-master2
172.16.20.83 hadoop-slave1
172.16.20.84 hadoop-slave2
172.16.20.85 hadoop-slave3
3.4 關(guān)閉防火墻和Selinux
// 切換root用戶
$ su root
// 停止firewall防火墻
# systemctl stop firewalld.service
// 禁止firewall開機啟動
# systemctl disable firewalld.service
// 開機關(guān)閉Selinux
# vim /etc/selinux/config
SELINUX=disabled
// 重啟機器后root用戶查看Selinux狀態(tài)
# getenforce
3.5 配置SSH免密碼登錄
// 在hadoop-master1節(jié)點生成SSH密鑰對
$ ssh-keygen -t rsa
// 將公鑰復(fù)制到集群所有節(jié)點機器上
$ ssh-copy-id hadoop-master1
$ ssh-copy-id hadoop-master2
$ ssh-copy-id hadoop-slave1
$ ssh-copy-id hadoop-slave2
$ ssh-copy-id hadoop-slave3
// 通過ssh登錄各節(jié)點測試是否免密碼登錄成功
$ ssh hadoop-master2
備注:在其余節(jié)點上執(zhí)行同樣的操作,確保集群中任意節(jié)點都可以ssh免密碼登錄到其它各節(jié)點。
3.6 安裝JDK
// 卸載系統(tǒng)自帶的openjdk
$ suroot
# rpm-qa | grep java
# rpm-e --nodeps java-1.7.0-openjdk-1.7.0.75-2.5.4.2.el7_0.x86_64
# rpm-e --nodeps java-1.7.0-openjdk-headless-1.7.0.75-2.5.4.2.el7_0.x86_64
# rpm-e --nodeps tzdata-java-2015a-1.el7_0.noarch
# exit
// 解壓jdk安裝包
$ tar-xvf jdk-7u79-linux-x64.tar.gz
// 刪除安裝包
$ rmjdk-7u79-linux-x64.tar.gz
// 修改用戶環(huán)境變量
$ cd ~
$ vim.bash_profile
exportJAVA_HOME=/home/hadoop/app/jdk1.7.0_79
exportPATH=$PATH:$JAVA_HOME/bin
// 使修改的環(huán)境變量生效
$ source.bash_profile
// 測試jdk是否安裝成功
$ java-version
4 集群時間同步
如果集群節(jié)點時間不同步,可能會出現(xiàn)節(jié)點宕機或引發(fā)其它異常問題,所以在生產(chǎn)環(huán)境中一般通過配置NTP服務(wù)器實現(xiàn)集群時間同步。本集群在hadoop-master1節(jié)點設(shè)置ntp服務(wù)器,具體方法如下:
// 切換root用戶
$ su root
// 查看是否安裝ntp
# rpm -qa | grep ntp
// 安裝ntp
# yum install -y ntp
// 配置時間服務(wù)器
# vim /etc/ntp.conf
# 禁止所有機器連接ntp服務(wù)器
restrict default ignore
# 允許局域網(wǎng)內(nèi)的所有機器連接ntp服務(wù)器
restrict 172.16.20.0 mask 255.255.255.0 nomodify notrap
# 使用本機作為時間服務(wù)器
server 127.127.1.0
// 啟動ntp服務(wù)器
# service ntpd start
// 設(shè)置ntp服務(wù)器開機自動啟動
# chkconfig ntpd on
集群其它節(jié)點通過執(zhí)行crontab定時任務(wù),每天在指定時間向ntp服務(wù)器進(jìn)行時間同步,方法如下:
// 切換root用戶
$ su root
// 執(zhí)行定時任務(wù),每天00:00向服務(wù)器同步時間,并寫入日志
# crontab -e
0 0 * * * /usr/sbin/ntpdate hadoop-master1>> /home/hadoop/ntpd.log
// 查看任務(wù)
# crontab -l
5 Zookeeper集群安裝
Zookeeper是一個開源分布式協(xié)調(diào)服務(wù),其獨特的Leader-Follower集群結(jié)構(gòu),很好的解決了分布式單點問題。目前主要用于諸如:統(tǒng)一命名服務(wù)、配置管理、鎖服務(wù)、集群管理等場景。大數(shù)據(jù)應(yīng)用中主要使用Zookeeper的集群管理功能。
本集群使用zookeeper-3.4.5-cdh5.7.1版本。首先在hadoop-slave1節(jié)點安裝Zookeeper,方法如下:
// 新建目錄
$ mkdir app/cdh
// 解壓zookeeper安裝包
$ tar -xvf zookeeper-3.4.5-cdh5.7.1.tar.gz -C app/cdh/
// 刪除安裝包
$ rm -rf zookeeper-3.4.5-cdh5.7.1.tar.gz
// 配置用戶環(huán)境變量
$ vim .bash_profile
export ZOOKEEPER_HOME=/home/hadoop/app/cdh/zookeeper-3.4.5-cdh5.7.1
export PATH=$PATH:$ZOOKEEPER_HOME/bin
// 使修改的環(huán)境變量生效
$ source.bash_profile
// 修改zookeeper的配置文件
$ cd app/cdh/zookeeper-3.4.5-cdh5.7.1/conf/
$ cp zoo_sample.cfg zoo.cfg
$ vim zoo.cfg
# 客戶端心跳時間(毫秒)
tickTime=2000
# 允許心跳間隔的最大時間
initLimit=10
# 同步時限
syncLimit=5
# 數(shù)據(jù)存儲目錄
dataDir=/home/hadoop/app/cdh/zookeeper-3.4.5-cdh5.7.1/data
# 數(shù)據(jù)日志存儲目錄
dataLogDir=/home/hadoop/app/cdh/zookeeper-3.4.5-cdh5.7.1/data/log
# 端口號
clientPort=2181
# 集群節(jié)點和服務(wù)端口配置
server.1=hadoop-slave1:2888:3888
server.2=hadoop-slave2:2888:3888
server.3=hadoop-slave3:2888:3888
# 以下為優(yōu)化配置
# 服務(wù)器最大連接數(shù),默認(rèn)為10,改為0表示無限制
maxClientCnxns=0
# 快照數(shù)
autopurge.snapRetainCount=3
# 快照清理時間,默認(rèn)為0
autopurge.purgeInterval=1
// 創(chuàng)建zookeeper的數(shù)據(jù)存儲目錄和日志存儲目錄
$ cd ..
$ mkdir -p data/log
// 在data目錄中創(chuàng)建一個文件myid,輸入內(nèi)容為1
$ echo "1" >> data/myid
// 修改zookeeper的日志輸出路徑(注意CDH版與原生版配置文件不同)
$ vim libexec/zkEnv.sh
if [ "x${ZOO_LOG_DIR}" = "x" ]
then
ZOO_LOG_DIR="$ZOOKEEPER_HOME/logs"
fi
if [ "x${ZOO_LOG4J_PROP}" = "x" ]
then
ZOO_LOG4J_PROP="INFO,ROLLINGFILE"
fi
// 修改zookeeper的日志配置文件
$ vim conf/log4j.properties
zookeeper.root.logger=INFO,ROLLINGFILE
// 創(chuàng)建日志目錄
$ mkdir logs
將hadoop-slave1節(jié)點上的Zookeeper目錄同步到hadoop-slave2和hadoop-slave3節(jié)點,并修改Zookeeper的數(shù)據(jù)文件。此外,不要忘記設(shè)置用戶環(huán)境變量。
// 在hadoop-slave1中將zookeeper目錄復(fù)制到其它節(jié)點
$ cd ~
$ scp -r app/cdh/zookeeper-3.4.5-cdh5.7.1hadoop-slave2:/home/hadoop/app/cdh
$ scp -r app/cdh/zookeeper-3.4.5-cdh5.7.1 hadoop-slave3:/home/hadoop/app/cdh
//在hadoop-slave2中修改data目錄中的myid文件
$ echo "2" >app/cdh/zookeeper-3.4.5-cdh5.7.1/data/myid
//在hadoop-slave3中修改data目錄中的myid文件
$ echo "3" >app/cdh/zookeeper-3.4.5-cdh5.7.1/data/myid
最后,在安裝了Zookeeper的各節(jié)點上啟動Zookeeper,并查看節(jié)點狀態(tài),方法如下:
// 啟動
$ zkServer.sh start
// 查看狀態(tài)
$ zkServer.sh status
// 關(guān)閉
請教hadoop2.0的ha如何配置
1.4 HDFS HA配置參數(shù) 需要在hdfs.xml中配置如下參數(shù): dfs.nameservices:HDFS NN的邏輯名稱,例如myhdfs。 dfs.ha.namenodes.myhdfs:給定服務(wù)邏輯名稱myhdfs的節(jié)點列表,如nn1、nn2。 dfs.namenode.rpc-address.myhdfs.nn1:myhdfs中nn1對外服務(wù)的RPC地址。 dfs.namenode.http-address.myhdfs.nn1:myhdfs中nn1...
HDFS—HA高可用詳解
1. 工作要點:元數(shù)據(jù)管理、狀態(tài)管理、隔離、配置和啟動。2. 環(huán)境準(zhǔn)備:修改IP、主機名、關(guān)閉防火墻、SSH免密登錄。3. 規(guī)劃集群:節(jié)點間配置。4. 配置HDFS-HA集群:環(huán)境文件、配置文件、服務(wù)啟動。四、HDFS HA自動故障轉(zhuǎn)移 1. 工作要點:ZooKeeper監(jiān)控、現(xiàn)役NameNode選擇、ZKFC健康監(jiān)測。2. 規(guī)劃集群:...
NameNode HA實現(xiàn)原理
① 首先ZKFC會嘗試調(diào)用舊Active NameNode的HAServiceProtocol RPC接口的transitionToStandby方法,看能否將狀態(tài)切換為Standby; ② 如果調(diào)用transitionToStandby方法切換狀態(tài)失敗,那么就需要執(zhí)行Hadoop自帶的隔離措施,Hadoop目前主要提供兩種隔離措施: sshfence:SSH to the Active NameNode and kill the p...
如何使用zookeeper管理NameNodede之間的切換
namenode的高可用ha,是吧,可以參考hadoop2.0版本的(0.23就有了)或cdh4。hdfs ha,兩個namenode,一個處于active狀態(tài),兩個共用一個共享存儲。用的不是zookeeper
怎樣進(jìn)行大數(shù)據(jù)的入門級學(xué)習(xí)
Linux:因為大數(shù)據(jù)相關(guān)軟件都是在Linux上運行的,所以Linux要學(xué)習(xí)的扎實一些,學(xué)好Linux對你快速掌握大數(shù)據(jù)相關(guān)技術(shù)會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數(shù)據(jù)軟件的運行環(huán)境和網(wǎng)絡(luò)環(huán)境配置,能少踩很多坑,學(xué)會shell就能看懂腳本這樣能更容易理解和配置大數(shù)據(jù)集群。還能讓你對以后新...
java開發(fā)app需要學(xué)會哪些?
1、Hadoop(Hadoop基礎(chǔ)和環(huán)境搭建,HDFS體系結(jié)構(gòu),MapReduce;Hadoop的叢集模式、HDFS聯(lián)盟,利用ZooKeeper來實現(xiàn)Hadoop叢集的HA(高可用性)功能 2、Yarn的任務(wù)排程機制,ApacheHive,Pig資料處理,整合Hadoop和Sqoop 3、Flume以及ApacheKafka來實現(xiàn)資料的交換,安裝部署HBase,Storm) 4、Scala語言(Scala環(huán)境搭建、Scala基礎(chǔ)語法、模式匹...
zookeeper事務(wù)日志在哪兒
hadoop-server5: echo 3 > \/home\/hadoop\/app\/zookeeper-3.4.5\/data\/myid 2.安裝配置hadoop集群(在hadoop-server1上操作) 2.1解壓 tar -zxvf hadoop-2.4.1.tar.gz -C \/weekend\/ 2.2配置HDFS(hadoop2.0所有的配置文件都在$HADOOP_HOME\/etc\/hadoop目錄下) #將hadoop添加到環(huán)境變量中 vim \/etc\/profile export...
大數(shù)據(jù)分析應(yīng)該掌握哪些基礎(chǔ)知識?
· 方法重載 · 數(shù)組的使用 · 命令行參數(shù)、可變參數(shù) IDEA · IDEA常用設(shè)置、常用快捷鍵 · 自定義模板 · 關(guān)聯(lián)Tomcat · Web項目案例實操 面向?qū)ο缶幊?· 封裝、繼承、多態(tài)、構(gòu)造器、包 · 異常處理機制 · 抽象類、接口、內(nèi)部類 · 常有基礎(chǔ)API、集合List\/Set\/Map · 泛型、線程的創(chuàng)建和啟動 ...
hadoop3.0新特性
yarn配置資源可以配置的更加細(xì)化,比如原先是只支持線級別,現(xiàn)在支持點級別 比如這個hive依賴hadoopclient,但是還依賴某一個jar包的1.0版本,但是呢,這個hadoopclient依賴這個jar包的2.0版本,然后這兩個jar包放到一起,肯定報錯,因為名字一樣,版本不一樣,使用就會紊亂 優(yōu)化,將這個hadoop client的jar包放到...
java開發(fā)都需要學(xué)什么
你可以不理解那些配置都是什么含義,以及為什么要這么做,這些留著后面你去了解。但你一定要可以快速的利用它們?nèi)齻€搭建出一個Web框架,你可以記錄下你第一次搭建的過程,相信我,你一定會用到的。還要提一句的是,你在搭建SSM的過程中,可能會經(jīng)常接觸到一個叫maven的工具。這個工具也是你以后工作當(dāng)中...
相關(guān)評說:
鐘山縣冗余: ______ 這里是結(jié)合Hadoop2.0使用的1,download:根據(jù)下載的spark的README中的描述下載合適的版本3,安裝其實就是解壓,配置/etc/profile環(huán)境變量exportSPARK_HOME=/data1/spark/sparkexportSCALA_HOME=/data1/spark/scala-2.9.3exportPATH=$PATH:$SPAR
鐘山縣冗余: ______ 應(yīng)該是你執(zhí)行這個命令時候的所在目錄不對,可以貼一下你的命令使用時,你的所在目錄,看看.
鐘山縣冗余: ______ 大講臺hadoop培訓(xùn)為你解答: 1、Apache Hadoop2.0版本,有以下模塊: Hadoop通用模塊,支持其他Hadoop模塊的通用工具集; Hadoop分布式文件系統(tǒng)(HDFS),支持對應(yīng)用數(shù)據(jù)高吞吐量訪問的分布式文件系統(tǒng); Hadoop YARN,用于作...
鐘山縣冗余: ______ 以cdh4.3.1版本為例來進(jìn)行說明.1、hadoop配置文件及目錄 hadoop2.0版本配置文件放在$HAOOP_HOME/etc/hadoop/下,命令行工具在$HADOOP_HOME/bin/下,啟動停止腳本則被放置在$HADOOP_HOME/sbin/下2、配置項 core-site.xml<...
鐘山縣冗余: ______ 在代碼中添加如下可以解決,添加了setmaster方法,指定master sparkconf sparkconf = new sparkconf().setmaster("yarn-standalone").setappname("javasparkpi");
鐘山縣冗余: ______ 2.0版本之前可以通過hadoop自帶的web管理界面查看,端口是50030;2.0之后沒有map和reduce slot的概念,所以也就沒有map數(shù)量一說,改成了直接對資源進(jìn)行管理. 釋義: map的數(shù)量 map的數(shù)量通常是由hadoop集群的DFS塊大小確定的...
鐘山縣冗余: ______ Hadoop 2.0 跟Sqoop哪個版本比較匹配 目前而言,不收費的Hadoop版本主要有三個(均是國外廠商),分別是:Apache(最原始的版本,所有發(fā)行版均基于這個版本進(jìn)行改進(jìn))、Cloudera版本(Cloudera's Distribution Including Apache ...
鐘山縣冗余: ______ 這里是結(jié)合Hadoop2.0使用的1,download:根據(jù)下載的spark的README中的描述下載合適的版本3,安裝其實就是解壓,配置/etc/profile環(huán)境變量exportSPARK_HOME=/data1/spark/sparkexportSCALA_HOME=/data1/spark/scala-2.9.3...