spark mllib如何實(shí)現(xiàn)快速迭代聚類(lèi)

發(fā)布時(shí)間：2021-12-16 14:41:33 來(lái)源：億速云閱讀：126 作者：小新欄目：云計(jì)算

小編給大家分享一下spark mllib如何實(shí)現(xiàn)快速迭代聚類(lèi)，希望大家閱讀完這篇文章之后都有所收獲，下面讓我們一起去探討吧！

運(yùn)行代碼如下

package spark.clustering

import org.apache.spark.mllib.clustering.{PowerIterationClustering}
import org.apache.spark.{SparkConf, SparkContext}

/**
  * 快速迭代聚類(lèi)
  * 基本原理：使用含有權(quán)重的無(wú)向線將樣本數(shù)據(jù)連接在一張無(wú)向圖中，之后按照相似度劃分，
  * 使得劃分后的子圖內(nèi)部具有最大的相似度二不同的子圖具有最小的相似度從而達(dá)到聚類(lèi)的效果．
  * 數(shù)據(jù)源要求　　RDD[(Long), (Long), (Double)]
  * 第一個(gè)參數(shù)和第二個(gè)參數(shù)是第一個(gè)點(diǎn)和第二個(gè)點(diǎn)的編號(hào)，即其之間 ID，第三個(gè)參數(shù)是相似度計(jì)算值．
  * Created by eric on 16-7-21.
  */
object PIC {
  val conf = new SparkConf()                                     //創(chuàng)建環(huán)境變量
    .setMaster("local")                                             //設(shè)置本地化處理
    .setAppName("pic")                              //設(shè)定名稱
  val sc = new SparkContext(conf)

  def main(args: Array[String]) {
    val data = sc.textFile("./src/main/spark/clustering/pic.txt")
    val similarities = data.map { line =>
      val parts = line.split(" ")
      (parts(0).toLong, parts(1).toLong, parts(2).toDouble)
    }
    val pic = new PowerIterationClustering()
      .setK(2) //設(shè)置聚類(lèi)數(shù)
      .setMaxIterations(10) //設(shè)置迭代次數(shù)
    val model = pic.run(similarities)

    model.assignments.foreach {a =>
      println(s"${a.id} -> ${a.cluster}")
    }
  }
}

pic.txt

結(jié)果如下

spark mllib如何實(shí)現(xiàn)快速迭代聚類(lèi)

看完了這篇文章，相信你對(duì)“spark mllib如何實(shí)現(xiàn)快速迭代聚類(lèi)”有了一定的了解，如果想了解更多相關(guān)知識(shí)，歡迎關(guān)注億速云行業(yè)資訊頻道，感謝各位的閱讀！

向AI問(wèn)一下細(xì)節(jié)

spark mllib如何實(shí)現(xiàn)快速迭代聚類(lèi)

運(yùn)行代碼如下

結(jié)果如下

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽