您好,登錄后才能下訂單哦!
DataSet Api編程指南是什么,很多新手對(duì)此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來(lái)學(xué)習(xí)下,希望你能有所收獲。
ApacheFlink是一個(gè)兼顧高吞吐、低延遲、高性能的分布式處理框架。在實(shí)時(shí)計(jì)算崛起的今天,F(xiàn)link正在飛速發(fā)展。由于性能的優(yōu)勢(shì)和兼顧批處理,流處理的特性,F(xiàn)link可能正在顛覆整個(gè)大數(shù)據(jù)的生態(tài)。
首先要想運(yùn)行Flink,我們需要下載并解壓Flink的二進(jìn)制包。
我們可以選擇Flink與Scala結(jié)合版本,這里我們選擇最新的1.9版本ApacheFlink1.9.0forScala2.12進(jìn)行下載。
下載成功后,在windows系統(tǒng)中可以通過(guò)Windows的bat文件或者Cygwin來(lái)運(yùn)行Flink。
在linux系統(tǒng)中分為單機(jī),集群和Hadoop等多種情況。
Flink的編程模型,F(xiàn)link提供了不同的抽象級(jí)別以開(kāi)發(fā)流式或者批處理應(yīng)用,本文我們來(lái)介紹DataSetAPI,F(xiàn)link最常用的批處理編程模型。
Flink中的DataSet程序是實(shí)現(xiàn)數(shù)據(jù)集轉(zhuǎn)換的常規(guī)程序(例如,F(xiàn)ilter,映射,連接,分組)。數(shù)據(jù)集最初是從某些來(lái)源創(chuàng)建的(例如,通過(guò)讀取文件或從本地集合創(chuàng)建)。結(jié)果通過(guò)接收器返回,接收器可以例如將數(shù)據(jù)寫(xiě)入(分布式)文件或標(biāo)準(zhǔn)輸出(例如命令行終端)。Flink程序可以在各種環(huán)境中運(yùn)行,獨(dú)立運(yùn)行或嵌入其他程序中。執(zhí)行可以在本地JVM中執(zhí)行,也可以在許多計(jì)算機(jī)的集群上執(zhí)行。
數(shù)據(jù)轉(zhuǎn)換將一個(gè)或多個(gè)DataSet轉(zhuǎn)換為新的DataSet。程序可以將多個(gè)轉(zhuǎn)換組合到復(fù)雜的程序集中。
DataSetAPI中最重要的就是這些算子,我們將數(shù)據(jù)接入后,通過(guò)這些算子對(duì)數(shù)據(jù)進(jìn)行處理,得到我們想要的結(jié)果。
通過(guò)創(chuàng)建輸入文件和讀取輸出文件來(lái)完成分析程序的輸入并檢查其輸出是很麻煩的。Flink具有特殊的數(shù)據(jù)源和接收器,由Java集合支持以簡(jiǎn)化測(cè)試。一旦程序經(jīng)過(guò)測(cè)試,源和接收器可以很容易地被讀取/寫(xiě)入外部數(shù)據(jù)存儲(chǔ)(如HDFS)的源和接收器替換。
在開(kāi)發(fā)中,我們經(jīng)常直接使用接收器對(duì)數(shù)據(jù)源進(jìn)行接收。
看完上述內(nèi)容是否對(duì)您有幫助呢?如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請(qǐng)關(guān)注億速云行業(yè)資訊頻道,感謝您對(duì)億速云的支持。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。