Spark 累加器實(shí)驗(yàn)

發(fā)布時(shí)間：2020-05-30 18:09:48 來(lái)源：網(wǎng)絡(luò) 閱讀：904 作者：孟碩老師欄目：大數(shù)據(jù)

以下代碼用 Pyspark + IPython 完成

統(tǒng)計(jì)日志空行的數(shù)量：

讀取日志，創(chuàng)建RDD：

myrdd = sc.textFile("access.log")

不使用累加器：

In [68]: s = 0
In [69]: def f(x):
    ...:     global s
    ...:     if len(x) == 0:
    ...:         s += 1
    ...:
In [70]: myrdd.foreach(f)
In [71]: print (s)

得出結(jié)果為：

原因是python 的變量，即使是全局變量不能應(yīng)用在各個(gè)計(jì)算進(jìn)程（線程）中同步數(shù)據(jù)，所以需要分布式計(jì)算框架的變量來(lái)同步數(shù)據(jù)，Spark 中采用累加器來(lái)解決：

使用累加器

In [64]: s = sc.accumulator(0)
In [65]: def f(x):
    ...:     global s
    ...:     if len(x) == 0:
    ...:         s += 1
    ...:
In [66]: myrdd.foreach(f)
In [67]: print (s)

得出正確結(jié)果：

向AI問(wèn)一下細(xì)節(jié)

Spark 累加器實(shí)驗(yàn)

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽