您好,登錄后才能下訂單哦!
用python寫(xiě)spark的方法是什么?這個(gè)問(wèn)題可能是我們?nèi)粘W(xué)習(xí)或工作經(jīng)常見(jiàn)到的。希望通過(guò)這個(gè)問(wèn)題能讓你收獲頗深。下面是小編給大家?guī)?lái)的參考內(nèi)容,讓我們一起來(lái)看看吧!
為什么要使用Python來(lái)寫(xiě)Spark
Python寫(xiě)spark我認(rèn)為唯一的理由就是:你要做數(shù)據(jù)挖掘,AI相關(guān)的工作。因?yàn)楹芏嘧鰯?shù)挖的他們的基礎(chǔ)語(yǔ)言都是python,他們?nèi)绻匦聦W(xué)scala比較耗時(shí),而且,python他的強(qiáng)大類(lèi)庫(kù)是他的優(yōu)勢(shì),很多算法庫(kù)只有python有。
Win本地編寫(xiě)代碼調(diào)試
編輯器:PyCharm
Spark:1.6
Python:2.7
Win環(huán)境準(zhǔn)備
Python的安裝
解壓python包,在環(huán)境變量里面配上bin的路徑
Spark的安裝
下載spark的bin文件,解壓即可,在環(huán)境變量配置SPARK_HOME
要可以通過(guò)編輯器來(lái)安裝,如pycharm,查找pyspark庫(kù)安裝即可
Hadoop安裝
安裝hadoop環(huán)境 。在win下面需要winutils.exe;在環(huán)境里面配置HADOOP_HOME 即可。
代碼示例
# -*- coding: utf-8 -*- from __future__ import print_function from pyspark import * import os print(os.environ['SPARK_HOME']) print(os.environ['HADOOP_HOME']) if __name__ == '__main__': sc = SparkContext("local[8]") rdd = sc.parallelize("hello Pyspark world".split(" ")) counts = rdd \ .flatMap(lambda line: line) \ .map(lambda word: (word, 1)) \ .reduceByKey(lambda a, b: a + b) \ .foreach(print) sc.stop
問(wèn)題:
from pyspark import *
找不到pyspark。那你需要把spark的bin包下面的python的所有都拷貝到(可能需要解壓py4j)
%PYTHON%\Lib\site-packages下面去。這樣,你的編輯器才能找到。
或者:
配置你的編輯器的環(huán)境變量:
PYTHONPATH=F:\home\spark-1.6.0-bin-hadoop2.6\python;F:\python2.7\Lib\site-packages
使用spark-submit提交時(shí)用到其他類(lèi)庫(kù) –py-files xxxx/xxxx.zip,xxxx.py。
感謝各位的閱讀!看完上述內(nèi)容,你們對(duì)用python寫(xiě)spark的方法是什么大概了解了嗎?希望文章內(nèi)容對(duì)大家有所幫助。如果想了解更多相關(guān)文章內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。