溫馨提示×

spark如何讀取hdfs文件分區(qū)

小億
106
2024-05-22 10:23:08

在Spark中,可以使用spark.read.partitionBy()方法來讀取HDFS文件分區(qū)。這個(gè)方法可以指定一個(gè)或多個(gè)分區(qū)字段,在讀取文件時(shí)會(huì)根據(jù)這些字段的值進(jìn)行分區(qū)。

例如,假設(shè)有一個(gè)HDFS目錄/path/to/files,其中包含分區(qū)字段yearmonth,可以使用以下代碼來讀取這個(gè)文件分區(qū):

df = spark.read.format("parquet").option("header", "true").load("/path/to/files").partitionBy("year", "month")

這將讀取/path/to/files目錄下所有文件,并根據(jù)yearmonth字段的值進(jìn)行分區(qū)??梢酝ㄟ^df.show()方法查看讀取的數(shù)據(jù)。

0