如何在spark-shell命令行執(zhí)行spark hql 用pycharm導(dǎo)入的spark怎么啟動(dòng)spark shel...

如何在spark-shell命令行執(zhí)行spark hql 如何在spark-shell命令行執(zhí)行spark hql

前面已經(jīng)有篇文章介紹如何編譯包含hive的spark-assembly.jar了,不清楚的可以翻看一下前面的文章。
　　cloudera manager裝好的spark,直接執(zhí)行spark-shell進(jìn)入命令行后，寫入如下語(yǔ)句：
　　val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

　　你會(huì)發(fā)現(xiàn)沒法執(zhí)行通過，因?yàn)閏m裝的原生的spark是不支持spark hql的，我們需要手動(dòng)進(jìn)行一些調(diào)整：
　　第一步，將編譯好的包含hive的JAR包上傳到hdfs上配置的默認(rèn)的spark的sharelib目錄：/user/spark/share/lib

　　第二步：在你要運(yùn)行spark-shell腳本的節(jié)點(diǎn)上的/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/lib/spark/lib/目錄下面，下載這個(gè)jar到這個(gè)目錄：hadoop fs -get hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar（具體路徑替換成你自己的）。然后這個(gè)目錄下面原來會(huì)有個(gè)軟鏈接spark-assembly.jar指向的是spark-assembly-1.2.0-cdh5.3.0-hadoop2.5.0-cdh5.3.0.jar，我們把這個(gè)軟鏈接刪除掉重新創(chuàng)建一個(gè)同名的軟鏈接：ln -s spark-assembly-with-hive-maven.jar spark-assembly.jar，指向我們剛下載下來的那個(gè)JAR包，這個(gè)JAR包會(huì)在啟動(dòng)spark-shell腳本時(shí)裝載到driver program的classpath中去的，sparkContext也是在driver中創(chuàng)建出來的，所以需要將我們編譯的JAR包替換掉原來的spark-assembly.jar包，這樣在啟動(dòng)spark-shell的時(shí)候，包含hive的spark-assembly就被裝載到classpath中去了。
　　第三步：在/opt/cloudera/parcels/CDH/lib/spark/conf/目錄下面創(chuàng)建一個(gè)hive-site.xml。/opt/cloudera/parcels/CDH/lib/spark/conf目錄是默認(rèn)的spark的配置目錄，當(dāng)然你可以修改默認(rèn)配置目錄的位置。hive-site.xml內(nèi)容如下：

　　<?xml version="1.0" encoding="UTF-8"?>


<configuration>
<property>
<name>hive.metastore.local</name>
<value>false</value>
</property>
<property>
<name>hive.metastore.uris</name>
<value>thrift://n1:9083</value>
</property>
<property>
<name>hive.metastore.client.socket.timeout</name>
<value>300</value>
</property>
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
</property>
</configuration>

這個(gè)應(yīng)該大家都懂的，總要讓spark找到hive的元數(shù)據(jù)在哪吧，于是就有了上面一些配置。

　　第四步：修改/opt/cloudera/parcels/CDH/lib/spark/conf/spark-defaults.conf，添加一個(gè)屬性：spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar。這個(gè)是讓每個(gè)executor下載到本地然后裝載到自己的classpath下面去的，主要是用在yarn-cluster模式。local模式由于driver和executor是同一個(gè)進(jìn)程所以沒關(guān)系。
　　以上完事之后，運(yùn)行spark-shell,再輸入:
　　val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

　　應(yīng)該就沒問題了。我們?cè)賵?zhí)行一個(gè)語(yǔ)句驗(yàn)證一下是不是連接的我們指定的hive元數(shù)據(jù)庫(kù)：
　　hiveContext.sql("show tables").take(10) //取前十個(gè)表看看

　　最后要重點(diǎn)說明一下這里的第二步第三步和第四步，如果是yarn-cluster模式的話，應(yīng)該替換掉集群所有節(jié)點(diǎn)的spark-assembly.jar集群所有節(jié)點(diǎn)的spark conf目錄都需要添加hive-site.xml，每個(gè)節(jié)點(diǎn)spark-defaults.conf都需要添加spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar。可以寫個(gè)shell腳本來替換，不然手動(dòng)一個(gè)一個(gè)節(jié)點(diǎn)去替換也是蠻累的。

如何在spark-shell命令行執(zhí)行spark hql
第一步，將編譯好的包含hive的JAR包上傳到hdfs上配置的默認(rèn)的spark的sharelib目錄：\/user\/spark\/share\/lib 第二步：在你要運(yùn)行spark-shell腳本的節(jié)點(diǎn)上的\/opt\/cloudera\/parcels\/CDH-5.3.0-1.cdh5.3.0.p0.30\/lib\/spark\/lib\/目錄下面，下載這個(gè)jar到這個(gè)目錄：hadoop fs -get hdfs:\/\/n1:8020\/...

window環(huán)境下安裝spark
最后，測(cè)試spark安裝是否成功。在命令行窗口輸入spark-shell，如出現(xiàn)相應(yīng)界面則表示spark安裝成功。至此，window環(huán)境下的spark安裝完成。單機(jī)版spark可用于學(xué)習(xí)spark基礎(chǔ)使用，Python用戶可通過pyspark模塊使用spark，R用戶則可用SparkR包操作。

ambari 安裝的spark 怎么使用Standalone方式提交任務(wù)
啟動(dòng)完成后，可以在任意節(jié)點(diǎn)上通過提交Spark任務(wù)腳本來執(zhí)行作業(yè)。要提交一個(gè)簡(jiǎn)單的Spark任務(wù)，可以編寫一個(gè)Scala或Java程序，或者使用Spark的shell模式。例如，可以使用以下命令啟動(dòng)Spark Shell：bin\/spark-shell 在Spark Shell中，可以編寫Spark應(yīng)用程序代碼，例如：val data = sc.textFile("\/path\/to\/file"...

Spark-submit執(zhí)行流程,了解一下
shell腳本執(zhí)行的步驟包括：加載spark環(huán)境參數(shù)、載入java、jar包等、調(diào)用org.apache.spark.launcher中的Main進(jìn)行參數(shù)注入、監(jiān)測(cè)任務(wù)執(zhí)行狀態(tài)。在任務(wù)提交后，shell腳本會(huì)構(gòu)建cmd執(zhí)行任務(wù)。檢測(cè)執(zhí)行模式（class或submit），在submit模式中進(jìn)行參數(shù)檢查（SparkSubmitOptionParser），構(gòu)建命令行并打印至spark-class中，...

Spark-shell和Spark-submit提交程序的區(qū)別
Spark提交程序來說，最終都是通過Spark-submit命令來實(shí)現(xiàn)的，不同的是spark-shell在運(yùn)行時(shí)，會(huì)先進(jìn)行一些初始參數(shù)的設(shè)置，然后調(diào)用Sparksubmit來運(yùn)行，并且spark-shell是交互式的。下面我們從源代碼的角度來解釋。首先看下Spark-Shell命令，其中它會(huì)調(diào)用main方法在mian方法中，會(huì)調(diào)用spark-submit 并傳入—...

科普SparkSpark是什么如何使用Spark
Spark部署安裝Spark比較簡(jiǎn)單，只要在機(jī)器上配置好最新版JAVA環(huán)境，下載編譯好的Spark軟件包后即可在本地運(yùn)行。當(dāng)然，也可以根據(jù)具體環(huán)境，使用Maven編譯需要的Spark功能。Spark部署有兩種方式，一是本地部署，二是集群部署。前者只需啟動(dòng)本地的交互式環(huán)境spark-shell.sh腳本即可，常用在本機(jī)快速程序測(cè)試，...

WINDOWS 10環(huán)境下的Pyspark配置 (基于Anaconda環(huán)境,附加不重啟情況下環(huán)...
在完成所有環(huán)境變量配置后，可以在Powershell中運(yùn)行spark-shell，顯示如下界面：。運(yùn)行pyspark，顯示如下界面：。即表明基本配置成功。PySpark配置：由于希望在python環(huán)境中可以直接通過import pyspark的形式使用，因此，我們通過如下方式來讓python“找到”spark。首先，通過pip命令安裝findspark，然后在所需程序中...

如何運(yùn)行含spark的python腳本
1、Spark腳本提交\/運(yùn)行\(zhòng)/部署1.1spark-shell（交互窗口模式）運(yùn)行Spark-shell需要指向申請(qǐng)資源的standalonespark集群信息，其參數(shù)為MASTER，還可以指定executor及driver的內(nèi)存大小。sudospark-shell--executor-memory5g--driver-memory1g--masterspark:\/\/192.168.180.216:7077spark-shell啟動(dòng)完后，可以在交互...

Spark集群模式_Standalone搭建步驟有哪些?
運(yùn)行spark-shell交互式命令在Standalone集群上，訪問Web UI監(jiān)控頁(yè)面。在集群中，一個(gè)Spark Application包含多個(gè)Job，每個(gè)Job由多個(gè)Stage組成，Job執(zhí)行遵循DAG圖順序。每個(gè)Stage包含多個(gè)Task任務(wù)，每個(gè)Task以線程方式執(zhí)行，需要1Core CPU。在Spark Application程序運(yùn)行過程中，三個(gè)核心概念：Job、Stage、Task，分別...

如何通過Spark的Shell操作SparkContext實(shí)例過程
1. 進(jìn)入SPARK_HOME\/bin下運(yùn)行命令：[java] view plain copy print?.\/spark-shell 2. 利用HDFS上的一個(gè)文本文件創(chuàng)建一個(gè)新RDD：[java] view plain copy print?scala> var textFile = sc.textFile("hdfs:\/\/localhost:50040\/input\/WordCount\/text1");[java] view plain copy print?textFile: org...

www.tjgcgs88.cn-狠狠久久亚洲欧美专区不卡,久久精品国产99久久无毒不卡,噼里啪啦国语版在线观看,zσzσzσ女人极品另类

如何在spark-shell命令行執(zhí)行spark hql 如何在spark-shell命令行執(zhí)行spark hql

相關(guān)評(píng)說：