在Spark中,可以使用spark.read.partitionBy()
方法來讀取HDFS文件分區(qū)。這個(gè)方法可以指定一個(gè)或多個(gè)分區(qū)字段,在讀取文件時(shí)會(huì)根據(jù)這些字段的值進(jìn)行分區(qū)。
例如,假設(shè)有一個(gè)HDFS目錄/path/to/files
,其中包含分區(qū)字段year
和month
,可以使用以下代碼來讀取這個(gè)文件分區(qū):
df = spark.read.format("parquet").option("header", "true").load("/path/to/files").partitionBy("year", "month")
這將讀取/path/to/files
目錄下所有文件,并根據(jù)year
和month
字段的值進(jìn)行分區(qū)??梢酝ㄟ^df.show()
方法查看讀取的數(shù)據(jù)。