一,在用python編輯spark時,需要在windows本地搭建一套spark環境,然後將編輯好的上傳到hadoop集羣,再進行調用
二,在應用spark進行機器學習時,更多時候還是在windows環境下進行會相對比較方便。
組件準備:
1、Python3.6.7
2、JDK(本文中使用JDK1.8)
3、Scala(Scala-2.12.8)
4、Spark()
5、Hadoop(Hadoop 2.7)
6、
備註,儘量使用python3.6對應spark的2.4,不然會版本不相容。本次安裝採用的python3.6.7和spark2.4.5。