如何通過Spark的Shell操作SparkContext實(shí)例過程
Spark的交互式腳本是一種學(xué)習(xí)API的簡單途徑,也是分析數(shù)據(jù)集交互的有力工具。
Spark抽象的分布式集群空間叫做Resilient Distributed Dataset (RDD)彈性數(shù)據(jù)集。
其中,RDD有兩種創(chuàng)建方式:
(1)、從Hadoop的文件系統(tǒng)輸入(例如HDFS);
(2)、有其他已存在的RDD轉(zhuǎn)換得到新的RDD;
下面進(jìn)行簡單的測試:
1. 進(jìn)入SPARK_HOME/bin下運(yùn)行命令:
[java] view plain copy print?
$./spark-shell
2. 利用HDFS上的一個文本文件創(chuàng)建一個新RDD:
[java] view plain copy print?
scala> var textFile = sc.textFile("hdfs://localhost:50040/input/WordCount/text1");
[java] view plain copy print?
textFile: org.apache.spark.rdd.RDD[String] = MappedRDD[1] at textFile at <console>:12
3. RDD有兩種類型的操作 ,分別是Action(返回values)和Transformations(返回一個新的RDD)
(1)Action相當(dāng)于執(zhí)行一個動作,會返回一個結(jié)果:
羊伯15093278207: shell里面,怎么進(jìn)行l(wèi)og運(yùn)算如題 -
金陽縣超聲: ______ 可以使用awk 命令中的log函數(shù)進(jìn)行l(wèi)og運(yùn)算,這個log函數(shù)是以常數(shù)e為底的對數(shù) echo 100|awk '{print log($0)}'
羊伯15093278207: 如何使用Spark/Scala讀取Hbase的數(shù)據(jù) -
金陽縣超聲: ______ 如何使用Spark/Scala讀取Hbase的數(shù)據(jù) 必須使用高亮參數(shù)啟動Spark-shell,否則當(dāng)你遍歷RDD時會出現(xiàn)如下的Exception java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytesWritable spark-shell--conf spark.serializer=...
羊伯15093278207: eclipse怎么利用spark拆分csv文件 -
金陽縣超聲: ______ 動手實(shí)驗Apache Spark的最好方式是使用交互式Shell命令行,Spark目前有Python Shell和Scala Shell兩種交互式命令行. 可以從 這里下載Apache Spark,下載時選擇最近預(yù)編譯好的版本以便能夠立即運(yùn)行shell. 目前最新的Apache Spark版本是1.5.0
羊伯15093278207: 如何使用python來獲取pdf文件里的文字,最好是不能亂碼 -
金陽縣超聲: ______ Spark支持用Scala或Python REPL(Read-Eval-Print-Loop,即交互式shell)來進(jìn)行交互式的程序編寫.由于輸入的代碼會被立即計算,shell能在輸入代碼時給出實(shí)時反饋.在Scala shell里,命令執(zhí)行結(jié)果的值與類型在代碼執(zhí)行完后也會顯示出來.要想通過Scala來使用Spark shell,只需從Spark的主目錄執(zhí)行./bin/spark-shell.它會啟動Scala shell并初始化一個SparkContext對象.我們可以通過sc這個Scala值來調(diào)用這個對象.
羊伯15093278207: 如何運(yùn)行Spark程序 -
金陽縣超聲: ______ 本文前提是已經(jīng)正確安裝好scala,sbt以及spark了 簡述將程序掛載到集群上運(yùn)行的步驟: 1、構(gòu)建sbt標(biāo)準(zhǔn)的項目工程結(jié)構(gòu):SBT項目工程結(jié)構(gòu)圖其中:~/build.sbt文件用來配置項目的基本信息(項目名、組織名、項目版本、使用的scala版本或者...
羊伯15093278207: 如何使用intellij搭建spark開發(fā)環(huán)境 -
金陽縣超聲: ______ (1)準(zhǔn)備工作1) 安裝JDK 6或者JDK 72) 安裝scala 2.10.x (注意版本)2)下載Intellij IDEA最新版(本文以IntelliJ IDEA Community Edition 13.1.1為例說明,不同版本,界面布局可能不同):http://www.jetbrains.com/idea/download/3)將下載的...
羊伯15093278207: 如何在ipython或python中使用Spark -
金陽縣超聲: ______ 在ipython中使用spark 說明: spark 1.6.0 scala 2.10.5 spark安裝路徑是/usr/local/spark;已經(jīng)在.bashrc中配置了SPARK_HOME環(huán)境變量. 方法一 /usr/local/Spark/bin/pyspark默認(rèn)打開的是Python,而不是ipython.通過在pyspark文件中添加...
羊伯15093278207: 當(dāng)使用 spark - shell 命令沒有帶上任何參數(shù)時,默認(rèn)使用哪種模式啟動進(jìn)入 spark? -
金陽縣超聲: ______ 默認(rèn)是local方式啟動
羊伯15093278207: 如何學(xué)習(xí)Spark API -
金陽縣超聲: ______ 其實(shí)spark的核心就是RDD,只要你知道所有在RDD上的操作才會被運(yùn)行在cluster上就好了.其他的和正常的編程沒啥區(qū)別.至于API,真要學(xué)也就是掃一下目錄看看都有啥class就行了,用的時候在深入.盡管Spark本身是用Scala寫的,但你可...
羊伯15093278207: 如何在CDH 5上運(yùn)行Spark應(yīng)用程序 -
金陽縣超聲: ______ 幾個基本概念:(1)job:包含多個task組成的并行計算,往往由action催生.(2)stage:job的調(diào)度單位.(3)task:被送到某個executor上的工作單元.(4)taskSet:一組關(guān)聯(lián)的,相互之間沒有shuffle依賴關(guān)系的任務(wù)組成的任務(wù)集.一個應(yīng)用程序由...
Spark抽象的分布式集群空間叫做Resilient Distributed Dataset (RDD)彈性數(shù)據(jù)集。
其中,RDD有兩種創(chuàng)建方式:
(1)、從Hadoop的文件系統(tǒng)輸入(例如HDFS);
(2)、有其他已存在的RDD轉(zhuǎn)換得到新的RDD;
下面進(jìn)行簡單的測試:
1. 進(jìn)入SPARK_HOME/bin下運(yùn)行命令:
[java] view plain copy print?
$./spark-shell
2. 利用HDFS上的一個文本文件創(chuàng)建一個新RDD:
[java] view plain copy print?
scala> var textFile = sc.textFile("hdfs://localhost:50040/input/WordCount/text1");
[java] view plain copy print?
textFile: org.apache.spark.rdd.RDD[String] = MappedRDD[1] at textFile at <console>:12
3. RDD有兩種類型的操作 ,分別是Action(返回values)和Transformations(返回一個新的RDD)
(1)Action相當(dāng)于執(zhí)行一個動作,會返回一個結(jié)果:
相關(guān)評說:
金陽縣超聲: ______ 可以使用awk 命令中的log函數(shù)進(jìn)行l(wèi)og運(yùn)算,這個log函數(shù)是以常數(shù)e為底的對數(shù) echo 100|awk '{print log($0)}'
金陽縣超聲: ______ 如何使用Spark/Scala讀取Hbase的數(shù)據(jù) 必須使用高亮參數(shù)啟動Spark-shell,否則當(dāng)你遍歷RDD時會出現(xiàn)如下的Exception java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytesWritable spark-shell--conf spark.serializer=...
金陽縣超聲: ______ 動手實(shí)驗Apache Spark的最好方式是使用交互式Shell命令行,Spark目前有Python Shell和Scala Shell兩種交互式命令行. 可以從 這里下載Apache Spark,下載時選擇最近預(yù)編譯好的版本以便能夠立即運(yùn)行shell. 目前最新的Apache Spark版本是1.5.0
金陽縣超聲: ______ Spark支持用Scala或Python REPL(Read-Eval-Print-Loop,即交互式shell)來進(jìn)行交互式的程序編寫.由于輸入的代碼會被立即計算,shell能在輸入代碼時給出實(shí)時反饋.在Scala shell里,命令執(zhí)行結(jié)果的值與類型在代碼執(zhí)行完后也會顯示出來.要想通過Scala來使用Spark shell,只需從Spark的主目錄執(zhí)行./bin/spark-shell.它會啟動Scala shell并初始化一個SparkContext對象.我們可以通過sc這個Scala值來調(diào)用這個對象.
金陽縣超聲: ______ 本文前提是已經(jīng)正確安裝好scala,sbt以及spark了 簡述將程序掛載到集群上運(yùn)行的步驟: 1、構(gòu)建sbt標(biāo)準(zhǔn)的項目工程結(jié)構(gòu):SBT項目工程結(jié)構(gòu)圖其中:~/build.sbt文件用來配置項目的基本信息(項目名、組織名、項目版本、使用的scala版本或者...
金陽縣超聲: ______ (1)準(zhǔn)備工作1) 安裝JDK 6或者JDK 72) 安裝scala 2.10.x (注意版本)2)下載Intellij IDEA最新版(本文以IntelliJ IDEA Community Edition 13.1.1為例說明,不同版本,界面布局可能不同):http://www.jetbrains.com/idea/download/3)將下載的...
金陽縣超聲: ______ 在ipython中使用spark 說明: spark 1.6.0 scala 2.10.5 spark安裝路徑是/usr/local/spark;已經(jīng)在.bashrc中配置了SPARK_HOME環(huán)境變量. 方法一 /usr/local/Spark/bin/pyspark默認(rèn)打開的是Python,而不是ipython.通過在pyspark文件中添加...
金陽縣超聲: ______ 默認(rèn)是local方式啟動
金陽縣超聲: ______ 其實(shí)spark的核心就是RDD,只要你知道所有在RDD上的操作才會被運(yùn)行在cluster上就好了.其他的和正常的編程沒啥區(qū)別.至于API,真要學(xué)也就是掃一下目錄看看都有啥class就行了,用的時候在深入.盡管Spark本身是用Scala寫的,但你可...
金陽縣超聲: ______ 幾個基本概念:(1)job:包含多個task組成的并行計算,往往由action催生.(2)stage:job的調(diào)度單位.(3)task:被送到某個executor上的工作單元.(4)taskSet:一組關(guān)聯(lián)的,相互之間沒有shuffle依賴關(guān)系的任務(wù)組成的任務(wù)集.一個應(yīng)用程序由...