溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

0016-Avro序列化&反序列化和Spark讀取Avro數(shù)據(jù)

發(fā)布時間:2020-06-02 03:06:57 來源:網(wǎng)絡(luò) 閱讀:469 作者:Hadoop實操 欄目:大數(shù)據(jù)

溫馨提示:要看高清無碼套圖,請使用手機打開并單擊圖片放大查看。

1.簡介

本篇文章主要講如何使用java生成Avro格式數(shù)據(jù)以及如何通過spark將Avro數(shù)據(jù)文件轉(zhuǎn)換成DataSet和DataFrame進行操作。

1.1Apache Arvo是什么?

Apache Avro 是一個數(shù)據(jù)序列化系統(tǒng),Avro提供Java、Python、C、C++、C#等語言API接口,下面我們通過java的一個實例來說明Avro序列化和反序列化數(shù)據(jù)。

  • 支持豐富的數(shù)據(jù)結(jié)構(gòu)
  • 快速可壓縮的二進制數(shù)據(jù)格式
  • 存儲持久數(shù)據(jù)的文件容器
  • 遠程過程調(diào)用(RPC)
  • 動態(tài)語言的簡單集成

2.Avro數(shù)據(jù)生成

2.1定義Schema文件

1.下載avro-tools-1.8.1.jar

Avro官網(wǎng):http://avro.apache.org/ Avro版本:1.8.1 下載Avro相關(guān)jar包:avro-tools-1.8.1.jar 該jar包主要用戶將定義好的schema文件生成對應(yīng)的java文件

2.定義一個schema文件,命名為CustomerAdress.avsc

{

"namespace":"com.peach.arvo",

"type": "record",

"name": "CustomerAddress",

"fields": [

{"name":"ca_address_sk","type":"long"},

{"name":"ca_address_id","type":"string"},

{"name":"ca_street_number","type":"string"},

{"name":"ca_street_name","type":"string"},

{"name":"ca_street_type","type":"string"},

{"name":"ca_suite_number","type":"string"},

{"name":"ca_city","type":"string"},

{"name":"ca_county","type":"string"},

{"name":"ca_state","type":"string"},

{"name":"ca_zip","type":"string"},

{"name":"ca_country","type":"string"},

{"name":"ca_gmt_offset","type":"double"},

{"name":"ca_location_type","type":"string"}

]

}

Schema說明:

  • namespace:在生成java文件時import包路徑
  • type:omplex types(record, enum,array, map, union, and fixed)
  • name:生成java文件時的類名
  • fileds:schema中定義的字段及類型

3.生成java代碼文件

使用第1步下載的avro-tools-1.8.1.jar包,生成java code

java -jar avro-tools-1.8.1.jar compile schema CustomerAddress.avsc .

末尾的"."代表java code 生成在當(dāng)前目錄,命令執(zhí)行成功后顯示:

0016-Avro序列化&反序列化和Spark讀取Avro數(shù)據(jù)

2.2使用Java生成Avro文件

1.使用Maven創(chuàng)建java工程

在pom.xml文件中添加如下依賴

<dependency>

<groupId>org.apache.avro</groupId>

<artifactId>avro</artifactId>

<version>1.8.1</version>

</dependency>

0016-Avro序列化&反序列化和Spark讀取Avro數(shù)據(jù)

2.新建java類GenerateDataApp,代碼如下

0016-Avro序列化&反序列化和Spark讀取Avro數(shù)據(jù)

0016-Avro序列化&反序列化和Spark讀取Avro數(shù)據(jù)

0016-Avro序列化&反序列化和Spark讀取Avro數(shù)據(jù)

動態(tài)生成avro文件,通過將數(shù)據(jù)封裝為GenericRecord對象,動態(tài)的寫入avro文件,以下代碼片段:

0016-Avro序列化&反序列化和Spark讀取Avro數(shù)據(jù)

3. Spark讀Avro文件

1.使用Maven創(chuàng)建一個scala工程

在pom.xml文件中增加如下依賴

0016-Avro序列化&反序列化和Spark讀取Avro數(shù)據(jù)

0016-Avro序列化&反序列化和Spark讀取Avro數(shù)據(jù)

2.Scala事例代碼片段

0016-Avro序列化&反序列化和Spark讀取Avro數(shù)據(jù)

3.Spark運行結(jié)果

0016-Avro序列化&反序列化和Spark讀取Avro數(shù)據(jù)

源碼地址:

https://github.com/javaxsky/avrotospark

醉酒鞭名馬,少年多浮夸! 嶺南浣溪沙,嘔吐酒肆下!摯友不肯放,數(shù)據(jù)玩的花!
溫馨提示:要看高清無碼套圖,請使用手機打開并單擊圖片放大查看。
0016-Avro序列化&反序列化和Spark讀取Avro數(shù)據(jù)

向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI