在Spark中,可以使用sc.textFile()
方法來(lái)讀取HDFS文件。以下是一個(gè)簡(jiǎn)單的示例:
from pyspark import SparkContext
# 創(chuàng)建SparkContext
sc = SparkContext("local", "HDFS Read Example")
# 讀取HDFS文件
rdd = sc.textFile("hdfs://path/to/your/file.txt")
# 打印文件內(nèi)容
for line in rdd.collect():
print(line)
# 關(guān)閉SparkContext
sc.stop()
在上面的示例中,textFile()
方法用于讀取HDFS中的文件,并返回一個(gè)RDD對(duì)象。然后可以通過(guò)collect()
方法獲取RDD中的所有數(shù)據(jù),并進(jìn)行處理。最后記得要調(diào)用stop()
方法來(lái)關(guān)閉SparkContext。