spark怎么讀取hdfs文件

小億
153
2024-04-01 14:23:02

在Spark中,可以使用sc.textFile()方法來(lái)讀取HDFS文件。以下是一個(gè)簡(jiǎn)單的示例:

from pyspark import SparkContext

# 創(chuàng)建SparkContext
sc = SparkContext("local", "HDFS Read Example")

# 讀取HDFS文件
rdd = sc.textFile("hdfs://path/to/your/file.txt")

# 打印文件內(nèi)容
for line in rdd.collect():
    print(line)

# 關(guān)閉SparkContext
sc.stop()

在上面的示例中,textFile()方法用于讀取HDFS中的文件,并返回一個(gè)RDD對(duì)象。然后可以通過(guò)collect()方法獲取RDD中的所有數(shù)據(jù),并進(jìn)行處理。最后記得要調(diào)用stop()方法來(lái)關(guān)閉SparkContext。

0