溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Spark2.4是否支持圖片格式數(shù)據(jù)源

發(fā)布時間:2021-12-16 21:04:19 來源:億速云 閱讀:150 作者:柒染 欄目:大數(shù)據(jù)

今天就跟大家聊聊有關(guān)Spark2.4是否支持圖片格式數(shù)據(jù)源,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。

Spark2.4開始支持內(nèi)置的圖片數(shù)據(jù)源讀取器,可以直接讀取圖片的數(shù)據(jù)。

val df = spark.read.format("image").load("/opt/pic/")

目錄可以還可以是/path/to/dir/**和分區(qū)目錄。

Image Schema

讀取的數(shù)據(jù)會生成一個DF,該DF就一列列名字叫做 image。但是其實他是個嵌套數(shù)據(jù)結(jié)構(gòu),具體結(jié)構(gòu)如下:

root|-- image: struct (nullable = true)|    |-- origin: string (nullable = true)|    |-- height: integer (nullable = true)|    |-- width: integer (nullable = true)|    |-- nChannels: integer (nullable = true)|    |-- mode: integer (nullable = true)|    |-- data: binary (nullable = true)

orgin:代表圖片的路徑。

nChannels:顏色通道的數(shù)量。對于灰度圖像,典型值為1,對于彩色圖像(例如,RGB),典型值為3,對于具有alpha通道的彩色圖像,典型值為4。

mode:整數(shù)標(biāo)志,提供有關(guān)如何解釋數(shù)據(jù)字段的信息。它指定數(shù)據(jù)存儲的數(shù)據(jù)類型和通道順序。希望(但不強制)字段的值映射到下面顯示的OpenCV類型之一。OpenCV類型定義為1,2,3或4個通道,并為像素值定義了幾種數(shù)據(jù)類型。通道順序指定顏色的存儲順序。例如,如果有一個包含紅色,藍(lán)色和綠色組件的典型三通道圖像,則有六種可能的排序。大多數(shù)庫使用RGB或BGR。希望三(4)個通道OpenCV類型為BGR(A)順序。

OpenCV中的類型到數(shù)字的映射(數(shù)據(jù)類型x通道數(shù))

Spark2.4是否支持圖片格式數(shù)據(jù)源

data:以二進(jìn)制格式存儲的圖像數(shù)據(jù)。圖像數(shù)據(jù)表示為具有尺寸形狀(高度,寬度,n通道)和由schema字段指定的類型t的數(shù)組值的三維陣列。該數(shù)組以row-major順序存儲。

通道順序(channel order)

通道順序指定存儲顏色的順序。例如,如果您有一個包含紅色,藍(lán)色和綠色組件的典型三通道圖像,則有六種可能的排序。大多數(shù)庫使用RGB或BGR。預(yù)計三(4)個通道OpenCV類型為BGR(A)順序

案例

對于有監(jiān)督學(xué)習(xí),可以用label作為分區(qū)列,目前l(fā)abel僅僅支持?jǐn)?shù)字類型。

Spark2.4是否支持圖片格式數(shù)據(jù)源

val spark = SparkSession  .builder()  .appName("Spark reads pics")  .master("local[2]")  .getOrCreate()
val df = spark.read.format("image").load("/opt/pic")
df.printSchema()df.select(col("label"),  col("image.origin"),  col("image.height"),  col("image.width"),  col("image.nChannels"),  col("image.mode")).show(1,false)
spark.stop()

Spark2.4是否支持圖片格式數(shù)據(jù)源

關(guān)于圖片處理,目前spark支持的算法并不是很多,希望后續(xù)版本繼續(xù)完善吧。

看完上述內(nèi)容,你們對Spark2.4是否支持圖片格式數(shù)據(jù)源有進(jìn)一步的了解嗎?如果還想了解更多知識或者相關(guān)內(nèi)容,請關(guān)注億速云行業(yè)資訊頻道,感謝大家的支持。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI