<big id="rpakf"><del id="rpakf"><form id="rpakf"></form></del></big>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

flink中的聚合算子是什么

發(fā)布時間：2021-12-31 10:37:08 來源：億速云閱讀：220 作者：iii 欄目：大數(shù)據(jù)

這篇文章主要講解了“flink中的聚合算子是什么”，文中的講解內(nèi)容簡單清晰，易于學(xué)習(xí)與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學(xué)習(xí)“flink中的聚合算子是什么”吧！

前言

flink中的一個接口org.apache.flink.api.common.functions.AggregateFunction，這個類可以接在window流之后，做窗口內(nèi)的統(tǒng)計計算。

注意：除了這個接口AggregateFunction，flink中還有一個抽象類AggregateFunction：org.apache.flink.table.functions.AggregateFunction，大家不要把這個弄混淆了，接口AggregateFunction我們可以理解為flink中的一個算子，和MapFunction、FlatMapFunction等是同級別的，而抽象類AggregateFunction是用于用戶自定義聚合函數(shù)的，和max、min之類的函數(shù)是同級的。

原理解析

比如我們想實現(xiàn)一個類似sql的功能:

select TUMBLE_START(proctime,INTERVAL '2' SECOND)  as starttime,user,count(*) from logs group by user,TUMBLE(proctime,INTERVAL '2' SECOND)

這個sql就是來統(tǒng)計一下每兩秒鐘的滑動窗口內(nèi)每個人出現(xiàn)的次數(shù)，今天我們就以這個簡單的sql的功能為例講解一下flink的aggregate算子，其實就是我們用程序來實現(xiàn)這個sql的功能。

首先看一下聚合函數(shù)的接口:


@PublicEvolving
public interface AggregateFunction<IN, ACC, OUT> extends Function, Serializable {
 ACC createAccumulator();
 ACC add(IN value, ACC accumulator);
 ACC merge(ACC a, ACC b);
 OUT getResult(ACC accumulator);
}

這個接口AggregateFunction里面有4個方法，我們分別來講解一下。

AggregateFunction這個類是一個泛型類，這里面有三個參數(shù)，IN, ACC, OUT。IN就是聚合函數(shù)的輸入類型，ACC是存儲中間結(jié)果的類型，OUT是聚合函數(shù)的輸出類型。
createAccumulator
這個方法首先要創(chuàng)建一個累加器，要進(jìn)行一些初始化的工作，比如我們要進(jìn)行count計數(shù)操作，就要給累加器一個初始值。
add
add方法就是我們要做聚合的時候的核心邏輯，比如我們做count累加，其實就是來一個數(shù)，然后就加一。
類似上面的sql的邏輯，我們在寫業(yè)務(wù)邏輯的時候，可以這么想，進(jìn)入這方法數(shù)的數(shù)據(jù)都是屬于某一個用戶的，系統(tǒng)在調(diào)用這個方法之前會先進(jìn)行hash分組，然后不同的用戶會重復(fù)調(diào)用這個方法。所以這個函數(shù)的入?yún)⑹荌N類型，返回值是ACC類型
merge
因為flink是一個分布式計算框架，可能計算是分布在很多節(jié)點上同時進(jìn)行的，比如上述的add操作，可能同一個用戶在不同的節(jié)點上分別調(diào)用了add方法在本地節(jié)點對本地的數(shù)據(jù)進(jìn)行了聚合操作，但是我們要的是整個結(jié)果，整個時候，我們就需要把每個用戶各個節(jié)點上的聚合結(jié)果merge一下，整個merge方法就是做這個工作的，所以它的入?yún)⒑统鰠⒌念愋投际侵虚g結(jié)果類型ACC。
getResult
這個方法就是將每個用戶最后聚合的結(jié)果經(jīng)過處理之后，按照OUT的類型返回，返回的結(jié)果也就是聚合函數(shù)的輸出結(jié)果了。

實例講解

自定義source

首先我們自定義source生成用戶的信息

 public static class MySource implements SourceFunction<Tuple2<String,Long>>{

  private volatile boolean isRunning = true;

  String userids[] = {
    "4760858d-2bec-483c-a535-291de04b2247", "67088699-d4f4-43f2-913c-481bff8a2dc5",
    "72f7b6a8-e1a9-49b4-9a0b-770c41e01bfb", "dfa27cb6-bd94-4bc0-a90b-f7beeb9faa8b",
    "aabbaa50-72f4-495c-b3a1-70383ee9d6a4", "3218bbb9-5874-4d37-a82d-3e35e52d1702",
    "3ebfb9602ac07779||3ebfe9612a007979", "aec20d52-c2eb-4436-b121-c29ad4097f6c",
    "e7e896cd939685d7||e7e8e6c1930689d7", "a4b1e1db-55ef-4d9d-b9d2-18393c5f59ee"
  };

  @Override
  public void run(SourceContext<Tuple2<String,Long>> ctx) throws Exception{
   while (isRunning){
    Thread.sleep(10);
    String userid = userids[(int) (Math.random() * (userids.length - 1))];
    ctx.collect(Tuple2.of(userid, System.currentTimeMillis()));
   }
  }

  @Override
  public void cancel(){
   isRunning = false;
  }
 }

自定義聚合函數(shù)


 public static class CountAggregate
   implements AggregateFunction<Tuple2<String,Long>,Integer,Integer>{

  @Override
  public Integer createAccumulator(){
   return 0;
  }

  @Override
  public Integer add(Tuple2<String,Long> value, Integer accumulator){
   return ++accumulator;
  }

  @Override
  public Integer getResult(Integer accumulator){
   return accumulator;
  }

  @Override
  public Integer merge(Integer a, Integer b){
   return a + b;
  }
 }

自定義結(jié)果輸出函數(shù)


 /**
  * 這個是為了將聚合結(jié)果輸出
  */
 public static class WindowResult
   implements WindowFunction<Integer,Tuple3<String,Date,Integer>,Tuple,TimeWindow>{

  @Override
  public void apply(
    Tuple key,
    TimeWindow window,
    Iterable<Integer> input,
    Collector<Tuple3<String,Date,Integer>> out) throws Exception{

   String k = ((Tuple1<String>) key).f0;
   long windowStart = window.getStart();
   int result = input.iterator().next();
   out.collect(Tuple3.of(k, new Date(windowStart), result));

  }
 }

主流程


 final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
  DataStream<Tuple2<String,Long>> dataStream = env.addSource(new MySource());

  dataStream.keyBy(0).window(TumblingProcessingTimeWindows.of(Time.seconds(2)))
            .aggregate(new CountAggregate(), new WindowResult()
            ).print();

  env.execute();

感謝各位的閱讀，以上就是“flink中的聚合算子是什么”的內(nèi)容了，經(jīng)過本文的學(xué)習(xí)后，相信大家對flink中的聚合算子是什么這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是億速云，小編將為大家推送更多相關(guān)知識點的文章，歡迎關(guān)注！

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
IDEA升級到2019.3.1 編譯Flink 1.10無效怎么辦
下一篇新聞：
flink中怎么使用自定義聚合函數(shù)統(tǒng)計網(wǎng)站TP指標(biāo)

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼