您好,登錄后才能下訂單哦!
彈性分布式數(shù)據(jù)集(RDD)是一組不可變的JVM對(duì)象的分布集,可以用于執(zhí)行高速運(yùn)算,它是Apache Spark的核心。
在pyspark中獲取和處理RDD數(shù)據(jù)集的方法如下:
1. 首先是導(dǎo)入庫(kù)和環(huán)境配置(本測(cè)試在linux的pycharm上完成)
import os from pyspark import SparkContext, SparkConf from pyspark.sql.session import SparkSession os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" conf = SparkConf().setAppName('test_rdd') sc = SparkContext('local', 'test', conf=conf) spark = SparkSession(sc)
2. 然后,提供hdfs分區(qū)數(shù)據(jù)的路徑或者分區(qū)表名
txt_File = r"hdfs://host:port/apps/hive/warehouse/數(shù)據(jù)庫(kù)名.db/表名/分區(qū)名/part-m-00029.deflate" # part-m-00029.deflate
# txt_File = r"hdfs://host:port/apps/hive/warehouse/數(shù)據(jù)庫(kù)名.db/表名" # hive table
3. sc.textFile進(jìn)行讀取,得到RDD格式數(shù)據(jù)<還可以用 spark.sparkContext.parallelize(data) 來(lái)獲取RDD數(shù)據(jù)>,參數(shù)中還可設(shè)置數(shù)據(jù)被劃分的分區(qū)數(shù)
txt_ = sc.textFile(txt_File)
4. 基本操作:
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持億速云。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。