R + sparkR : Windows 7 安裝筆記

最近剛好用到 SparkR, 但 Google 上的一些安裝網頁由於版本與設定不同,資訊都不大完整。這裡提供一下我的安裝過程

1. 下載 hadoop, 解壓縮到, e.g, d:\hadoop

https://archive.apache.org/dist/hadoop/common/

我下載的是 hadoop-2.7.6.tar.gz

2. 下載 spark, 解壓縮到, e.g. d:\spark

http://spark.apache.org/downloads.html

我下載的是 spark-2.3.0-bin-hadoop-2.7.tgz

3. 下載 winutils.exe, copy 到 d:\hadoop\bin
https://github.com/steveloughran/winutils/raw/master/hadoop-2.6.0/bin/winutils.exe

4. 先建立 c:\tmp\hive 資料夾。然後使用系統管理員身分打開 DOS 視窗(命令提示字元), 執行以下指令:

c:
d:\hadoop\bin\wintuils.exe chmod 777 \tmp\hive

5. 控制台 => 系統 => 環境變數

(5-1) 新增 HADOOP_HOME 與 SPARK_HOME, 分別設定為 d:\haoop 與 d:\spark

(5-2) 在系統 PATH 環境變數加入 R bin 路徑, 例如
d:\R\R-3.4.0\bin\x64;………

6. 建立 d:\temp 資料夾

—————————————————-
進入R 軟體:


library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib")))

sparkR.session(master = "local",
sparkConfig = list(spark.sql.warehouse.dir = "/file:d:/temp"))

df <- createDataFrame(faithful)
head(df)