用python寫(xiě)spark的方法是什么

發(fā)布時(shí)間：2020-08-18 13:42:14 來(lái)源：億速云閱讀：164 作者：小新欄目：編程語(yǔ)言

用python寫(xiě)spark的方法是什么？這個(gè)問(wèn)題可能是我們?nèi)粘W(xué)習(xí)或工作經(jīng)常見(jiàn)到的。希望通過(guò)這個(gè)問(wèn)題能讓你收獲頗深。下面是小編給大家?guī)?lái)的參考內(nèi)容，讓我們一起來(lái)看看吧！

為什么要使用Python來(lái)寫(xiě)Spark

Python寫(xiě)spark我認(rèn)為唯一的理由就是：你要做數(shù)據(jù)挖掘，AI相關(guān)的工作。因?yàn)楹芏嘧鰯?shù)挖的他們的基礎(chǔ)語(yǔ)言都是python，他們?nèi)绻匦聦W(xué)scala比較耗時(shí)，而且，python他的強(qiáng)大類(lèi)庫(kù)是他的優(yōu)勢(shì)，很多算法庫(kù)只有python有。

Win本地編寫(xiě)代碼調(diào)試

編輯器：PyCharm

Spark：1.6

Python：2.7

Win環(huán)境準(zhǔn)備

Python的安裝

解壓python包，在環(huán)境變量里面配上bin的路徑

Spark的安裝

下載spark的bin文件，解壓即可，在環(huán)境變量配置SPARK_HOME

要可以通過(guò)編輯器來(lái)安裝，如pycharm，查找pyspark庫(kù)安裝即可

Hadoop安裝

安裝hadoop環(huán)境。在win下面需要winutils.exe；在環(huán)境里面配置HADOOP_HOME 即可。

代碼示例

# -*- coding: utf-8 -*-
from __future__ import print_function
from pyspark import *
import os
print(os.environ['SPARK_HOME'])
print(os.environ['HADOOP_HOME'])
if __name__ == '__main__':
    sc = SparkContext("local[8]")
    rdd = sc.parallelize("hello Pyspark world".split(" "))
    counts = rdd \
        .flatMap(lambda line: line) \
        .map(lambda word: (word, 1)) \
        .reduceByKey(lambda a, b: a + b) \
        .foreach(print)
    sc.stop

問(wèn)題：

from pyspark import *

找不到pyspark。那你需要把spark的bin包下面的python的所有都拷貝到（可能需要解壓py4j）

%PYTHON%\Lib\site-packages下面去。這樣，你的編輯器才能找到。

或者：

配置你的編輯器的環(huán)境變量：

PYTHONPATH=F:\home\spark-1.6.0-bin-hadoop2.6\python;F:\python2.7\Lib\site-packages

使用spark-submit提交時(shí)用到其他類(lèi)庫(kù) –py-files xxxx/xxxx.zip,xxxx.py。

感謝各位的閱讀！看完上述內(nèi)容，你們對(duì)用python寫(xiě)spark的方法是什么大概了解了嗎？希望文章內(nèi)容對(duì)大家有所幫助。如果想了解更多相關(guān)文章內(nèi)容，歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

用python寫(xiě)spark的方法是什么

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽