大數(shù)據(jù)潮流下的機(jī)器學(xué)習(xí)及應(yīng)用場景

發(fā)布時(shí)間：2020-07-27 21:45:10 來源：網(wǎng)絡(luò) 閱讀：2027 作者：歡醉欄目：大數(shù)據(jù)

　　機(jī)器學(xué)習(xí)是一門人工智能的科學(xué)，能通過經(jīng)驗(yàn)自動(dòng)改進(jìn)的計(jì)算機(jī)算法的研究。　

　　機(jī)器學(xué)習(xí)是一個(gè)多學(xué)科交叉的領(lǐng)域，會(huì)涉及到計(jì)算機(jī)、信息學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)、神經(jīng)科學(xué)等。

　　機(jī)器學(xué)習(xí)是大數(shù)據(jù)的核心技術(shù)，本質(zhì)都是基于經(jīng)驗(yàn)的算法處理。機(jī)器學(xué)習(xí)強(qiáng)調(diào)三個(gè)關(guān)鍵詞：算法、經(jīng)驗(yàn)、性能，其處理過程如下圖所示。

　　在數(shù)據(jù)的基礎(chǔ)上，通過算法構(gòu)建出模型并對(duì)模型進(jìn)行評(píng)估。評(píng)估的性能如果達(dá)到要求，就用該模型來測試其他的數(shù)據(jù)；如果達(dá)不到要求，就要調(diào)整算法來重新建立模型，再次進(jìn)行評(píng)估。如此循環(huán)往復(fù)，最終獲得滿意的經(jīng)驗(yàn)來處理其他的數(shù)據(jù)。

　　機(jī)器學(xué)習(xí)技術(shù)和方法已經(jīng)被成功應(yīng)用到多個(gè)領(lǐng)域，比如今日頭條的個(gè)性推薦系統(tǒng)，螞蟻金服的金融反欺詐，訊飛的語音識(shí)別，自然語言處理和google的機(jī)器翻譯，模式識(shí)別，智能控制、垃圾郵件等。

機(jī)器學(xué)習(xí)的分類

監(jiān)督學(xué)習(xí)

　　監(jiān)督是從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)一個(gè)模型，再用此模型預(yù)測，再將預(yù)測結(jié)果與實(shí)際結(jié)果進(jìn)行比較，不斷調(diào)整預(yù)測模型，直到達(dá)到一個(gè)預(yù)期的準(zhǔn)確率。

　　常見算法包括回歸分析和統(tǒng)計(jì)分類。監(jiān)督學(xué)習(xí)常用作訓(xùn)練神經(jīng)網(wǎng)絡(luò)和決策樹。他們高度依賴事先確定的分類系統(tǒng)。如垃圾郵件、新聞資訊內(nèi)容分類。

非監(jiān)督學(xué)習(xí)

　　非監(jiān)督學(xué)習(xí)的訓(xùn)練集沒有人為標(biāo)注的結(jié)果，學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)。常見的應(yīng)用場景包括關(guān)聯(lián)規(guī)則的學(xué)習(xí)以及聚類等。

大數(shù)據(jù)潮流下的機(jī)器學(xué)習(xí)及應(yīng)用場景

　　這類學(xué)習(xí)型的目標(biāo)不是讓效用函數(shù)最大化，而是找到訓(xùn)練數(shù)據(jù)中的近似點(diǎn)。聚類常常能發(fā)現(xiàn)那些與假設(shè)匹配的相當(dāng)好的直觀分類，如基于人口統(tǒng)計(jì)的聚合個(gè)體可能會(huì)在一個(gè)群體中形成一個(gè)富有的聚合和窮的聚合。

半監(jiān)督學(xué)習(xí)

　　介于監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)間，產(chǎn)要考慮如何利用少量的標(biāo)注樣本和大量的未標(biāo)注樣本進(jìn)行訓(xùn)練和分類的問題。學(xué)習(xí)算法試圖對(duì)未標(biāo)識(shí)數(shù)據(jù)進(jìn)行建模，再對(duì)標(biāo)識(shí)的數(shù)據(jù)進(jìn)行預(yù)測，如圖論推理算法或拉普拉斯支持向量機(jī)等。

機(jī)器學(xué)習(xí)常用算法

回歸算法

　　最小二乘法、邏輯回歸、逐步式回歸、多元自適誚回歸樣條以及要地散點(diǎn)平滑估計(jì)。

大數(shù)據(jù)潮流下的機(jī)器學(xué)習(xí)及應(yīng)用場景

基于實(shí)例的算法

　　常被稱為“贏家通吃”學(xué)習(xí)。常用來對(duì)策問題建立模型，這樣的模型常常先選取一批樣本數(shù)據(jù)，然后根據(jù)某些近似把新數(shù)據(jù)與樣本數(shù)據(jù)進(jìn)行比較。通過這種方式來尋找最佳的匹配。

決策樹學(xué)習(xí)

　　根據(jù)數(shù)據(jù)的屬性采用樹狀結(jié)構(gòu)建立決策模型，常用來解決分類和回歸問題。

大數(shù)據(jù)潮流下的機(jī)器學(xué)習(xí)及應(yīng)用場景

貝葉斯學(xué)習(xí)

　　主要用來解決分類和回歸問題。樸素貝葉斯算法。

大數(shù)據(jù)潮流下的機(jī)器學(xué)習(xí)及應(yīng)用場景

聚類、分類算法

大數(shù)據(jù)潮流下的機(jī)器學(xué)習(xí)及應(yīng)用場景

聚類和分類是機(jī)器學(xué)習(xí)中兩個(gè)常用的算法，聚類將數(shù)據(jù)分開為不同的集合，分類對(duì)新數(shù)據(jù)進(jìn)行類別預(yù)測，下面將就兩類算法進(jìn)行介紹。
（1）什么是聚類
　　聚類（Clustering）指將數(shù)據(jù)對(duì)象分組成為多個(gè)類或者簇（Cluster），它的目標(biāo)是：在同一個(gè)簇中的對(duì)象之間具有較高的相似度，而不同簇中的對(duì)象差別較大。

　　其實(shí)，聚類在人們?nèi)粘Ｉ钪惺且环N常見行為，即所謂的“物以類聚，人以群分”，其核心思想在于分組，人們不斷地改進(jìn)聚類模式來學(xué)習(xí)如何區(qū)分各個(gè)事物和人。

（2）什么是分類
　　數(shù)據(jù)倉庫、數(shù)據(jù)庫或者其他信息庫中有許多可以為商業(yè)、科研等活動(dòng)的決策提供所需要的知識(shí)。分類與預(yù)測即是其中的兩種數(shù)據(jù)分析形式，可以用來抽取能夠描述重要數(shù)據(jù)集合或預(yù)測未來數(shù)據(jù)趨勢。

分類方法（Classification）用于預(yù)測數(shù)據(jù)對(duì)象的離散類別（Categorical Label）；預(yù)測方法（Prediction）用于預(yù)測數(shù)據(jù)對(duì)象的連續(xù)取值。
分類流程：新樣本→特征選取→分類→評(píng)價(jià)
訓(xùn)練流程：訓(xùn)練集→特征選取→訓(xùn)練→分類器
　　最初，機(jī)器學(xué)習(xí)的分類應(yīng)用大多都是在這些方法及基于內(nèi)存基礎(chǔ)上所構(gòu)造的算法。目前，數(shù)據(jù)挖掘方法都要求具有基于外存以處理大規(guī)模數(shù)據(jù)集合能力，同時(shí)具有可擴(kuò)展能力。

機(jī)器學(xué)習(xí)庫Spark MLLib

　　MLlib是Spark的機(jī)器學(xué)習(xí)（Machine Learning）庫，旨在簡化機(jī)器學(xué)習(xí)的工程實(shí)踐工作，并方便擴(kuò)展到更大規(guī)模。機(jī)器學(xué)習(xí)需要多次迭代，如果使用Hadoop計(jì)算框架，則每次計(jì)算都要進(jìn)行磁盤讀寫任務(wù)，會(huì)導(dǎo)致非常大的I/O和CPU消耗，而Spark是基于內(nèi)存的計(jì)算具有天生的優(yōu)勢。而且其RDD可與Spark SQL、Spark Streaming、GraphX等其他子框架與庫無縫地共享數(shù)據(jù)和操作，如MLlib可以直接使用SparkSQL提供的數(shù)據(jù)，或可以直接和GraphX圖計(jì)算進(jìn)行join操作。

　　MLlib在 spark 生態(tài)系統(tǒng)中的位置

大數(shù)據(jù)潮流下的機(jī)器學(xué)習(xí)及應(yīng)用場景

Spark MLlib 架構(gòu)

大數(shù)據(jù)潮流下的機(jī)器學(xué)習(xí)及應(yīng)用場景

　　從架構(gòu)圖可以看出MLlib主要包含三個(gè)部分：

底層基礎(chǔ)：包括Spark的運(yùn)行庫、矩陣庫和向量庫；
算法庫：包含廣義線性模型、推薦系統(tǒng)、聚類、決策樹和評(píng)估的算法；
實(shí)用程序：包括測試數(shù)據(jù)的生成、外部數(shù)據(jù)的讀入等功能。

下圖是MLlib算法庫的核心內(nèi)容。

大數(shù)據(jù)潮流下的機(jī)器學(xué)習(xí)及應(yīng)用場景

　　MLlib由一些通用的學(xué)習(xí)算法和工具組成，包括分類、回歸、聚類、協(xié)同過濾、降維等，同時(shí)還包括底層的優(yōu)化原語和高層的管道API。

　　具體來說，其主要包括以下幾方面的內(nèi)容：

1. 算法工具：常用的學(xué)習(xí)算法，如分類、回歸、聚類和協(xié)同過濾；
2. 特征化工具：特征提取、轉(zhuǎn)化、降維，和選擇工具；
3. 管道(Pipeline)：用于構(gòu)建、評(píng)估和調(diào)整機(jī)器學(xué)習(xí)管道的工具;
4. 持久性：保存和加載算法，模型和管道;
5. 實(shí)用工具：線性代數(shù)，統(tǒng)計(jì)，數(shù)據(jù)處理等工具。

　　Spark將機(jī)器學(xué)習(xí)算法分成了兩個(gè)模塊：

訓(xùn)練模塊：通過訓(xùn)練樣本輸出模型參數(shù)；
預(yù)測模塊：利用模型參數(shù)初始化，預(yù)測測試樣本，輸出預(yù)測值。

MLLib中經(jīng)典算法解析

分類

　　分類是一種重要的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)。分類的目的是根據(jù)數(shù)據(jù)集的特點(diǎn)構(gòu)造一個(gè)分類函數(shù)或分類模型(也常常稱作分類器)，該模型能把未知類別的樣本映射到給定類別中的一種技術(shù)。
　　分類的具體規(guī)則可描述如下：

　　給定一組訓(xùn)練數(shù)據(jù)的集合T(Training set)，T的每一條記錄包含若干條屬性（Features）組成一個(gè)特征向量，用矢量 x=(x1,x2,..,xn) 表示。 xi 可以有不同的值域，當(dāng)一屬性的值域?yàn)檫B續(xù)域時(shí)，該屬性為連續(xù)屬性(Numerical Attribute)，否則為離散屬性(Discrete Attribute)。用 C=c1,c2,..ck 表示類別屬性，即數(shù)據(jù)集有k個(gè)不同的類別。那么，T就隱含了一個(gè)從矢量X到類別屬性C的映射函數(shù)： f(X)?C 。分類的目的就是分析輸入數(shù)據(jù)，通過在訓(xùn)練集中的數(shù)據(jù)表現(xiàn)出來的特性，為每一個(gè)類找到一種準(zhǔn)確的描述或者模型，采用該種方法(模型)將隱含函數(shù)表示出來。
　　構(gòu)造分類模型的過程一般分為訓(xùn)練和測試兩個(gè)階段。在構(gòu)造模型之前，將數(shù)據(jù)集隨機(jī)地分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。先使用訓(xùn)練數(shù)據(jù)集來構(gòu)造分類模型，然后使用測試數(shù)據(jù)集來評(píng)估模型的分類準(zhǔn)確率。如果認(rèn)為模型的準(zhǔn)確率可以接受，就可以用該模型對(duì)其它數(shù)據(jù)元組進(jìn)分類。一般來說，測試階段的代價(jià)遠(yuǎn)低于訓(xùn)練階段。

　　MLlib分類算法分類算法基于不同的思想，算法也不盡相同，例如支持向量機(jī)SVM、決策樹算法、貝葉斯算法、KNN算法等。Spark.mllib包支持各種分類方法，主要包含二分類，多分類和回歸分析。下表列出了每種類型的問題支持的算法。

大數(shù)據(jù)潮流下的機(jī)器學(xué)習(xí)及應(yīng)用場景

每個(gè)算法具體的內(nèi)容由于內(nèi)容過多，因此不在此詳細(xì)介紹。

分類算法使用場景

1、市民出行選乘公交預(yù)測
　　基于海量公交數(shù)據(jù)記錄，希望挖掘市民在公共交通中的行為模式。以市民出行公交線路選乘預(yù)測為方向，期望通過分析廣東省部分公交線路的歷史公交卡交易數(shù)據(jù)，挖掘固定人群在公共交通中的行為模式，分析推測乘客的出行習(xí)慣和偏好，從而建立模型預(yù)測人們在未來一周內(nèi)將會(huì)搭乘哪些公交線路，為廣大乘客提供信息對(duì)稱、安全舒適的出行環(huán)境，用數(shù)據(jù)引領(lǐng)未來城市智慧出行。

2、基于運(yùn)營商數(shù)據(jù)的個(gè)人征信評(píng)估
　　運(yùn)營商作為網(wǎng)絡(luò)服務(wù)供應(yīng)商，積累了大量的用戶基本信息及行為特征數(shù)據(jù)，如終端數(shù)據(jù)、套餐消費(fèi)數(shù)據(jù)、通信數(shù)據(jù)等等。實(shí)名制政策保證了運(yùn)營商用戶數(shù)據(jù)能與用戶真實(shí)身份匹配，并真實(shí)客觀的反映用戶行為。廣泛覆蓋的網(wǎng)絡(luò)基礎(chǔ)設(shè)施提供了積累大量實(shí)時(shí)數(shù)據(jù)的條件，這些用戶數(shù)據(jù)實(shí)時(shí)反饋著用戶的各個(gè)維度的信息及特征。
　　在我國，個(gè)人征信評(píng)估主要通過引用央行個(gè)人征信報(bào)告，但對(duì)于很多用戶沒有建立個(gè)人信用記錄的用戶，金融機(jī)構(gòu)想要了解他們的信用記錄成本又較高，傳統(tǒng)征信評(píng)估手段難以滿足目前多種多樣的新興需求。金融業(yè)務(wù)不同于其他大數(shù)據(jù)業(yè)務(wù)，對(duì)數(shù)據(jù)的真實(shí)性、可信度和時(shí)效性要求較高，而這正是運(yùn)營商數(shù)據(jù)的價(jià)值所在。
　　期望利用運(yùn)營商用戶數(shù)據(jù)，提供完善的個(gè)人征信評(píng)估。

3、商品圖片分類
　　京東含有數(shù)以百萬計(jì)的商品圖片，“拍照購”“找同款”等應(yīng)用必須對(duì)用戶提供的商品圖片進(jìn)行分類。同時(shí)，提取商品圖像特征，可以提供給推薦、廣告等系統(tǒng)，提高推薦/廣告的效果。
　　希望通過對(duì)圖像數(shù)據(jù)進(jìn)行學(xué)習(xí)，以達(dá)到對(duì)圖像進(jìn)行分類劃分的目的。

4、廣告點(diǎn)擊行為預(yù)測
　　用戶在上網(wǎng)瀏覽過程中，可能產(chǎn)生廣告曝光或點(diǎn)擊行為。對(duì)廣告點(diǎn)擊進(jìn)行預(yù)測，可以指導(dǎo)廣告主進(jìn)行定向廣告投放和優(yōu)化，使廣告投入產(chǎn)生最大回報(bào)。
希　　望基于100萬名隨機(jī)用戶在六個(gè)月的時(shí)間范圍內(nèi)廣告曝光和點(diǎn)擊日志，包括廣告監(jiān)測點(diǎn)數(shù)據(jù)，預(yù)測每個(gè)用戶在8天內(nèi)是否會(huì)在各監(jiān)測點(diǎn)上發(fā)生點(diǎn)擊行為。

5、基于文本內(nèi)容的垃圾短信識(shí)別
　　垃圾短信已日益成為困擾運(yùn)營商和手機(jī)用戶的難題，嚴(yán)重影響到人們正常生活、侵害到運(yùn)營商的社會(huì)形象以及危害著社會(huì)穩(wěn)定。而不法分子運(yùn)用科技手段不斷更新垃圾短信形式且傳播途徑非常廣泛，傳統(tǒng)的基于策略、關(guān)鍵詞等過濾的效果有限，很多垃圾短信“逃脫”過濾，繼續(xù)到達(dá)手機(jī)終端。
　　希望基于短信文本內(nèi)容，結(jié)合機(jī)器學(xué)習(xí)算法、大數(shù)據(jù)分析挖掘來智能地識(shí)別垃圾短信及其變種。

6、大數(shù)據(jù)精準(zhǔn)營銷中搜狗用戶畫像挖掘
　　“物以類聚，人以群分”這句古語不僅揭示了物與人的自組織趨向，更隱含了“聚類”和“人群”之間的內(nèi)在聯(lián)系。在現(xiàn)代數(shù)字廣告投放系統(tǒng)中，以物擬人，以物窺人，才是比任何大數(shù)據(jù)都要更大的前提。在現(xiàn)代廣告投放系統(tǒng)中，多層級(jí)成體系的用戶畫像構(gòu)建算法是實(shí)現(xiàn)精準(zhǔn)廣告投放的基礎(chǔ)技術(shù)之一。其中，基于人口屬性的廣告定向技術(shù)是普遍適用于品牌展示廣告和精準(zhǔn)競價(jià)廣告的關(guān)鍵性技術(shù)。在搜索競價(jià)廣告系統(tǒng)中，用戶通過在搜索引擎輸入具體的查詢詞來獲取相關(guān)信息。因此，用戶的歷史查詢詞與用戶的基本屬性及潛在需求有密切的關(guān)系。
　　希望基于用戶歷史一個(gè)月的查詢詞與用戶的人口屬性標(biāo)簽（包括性別、年齡、學(xué)歷）做為訓(xùn)練數(shù)據(jù)，通過機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘技術(shù)構(gòu)建分類算法來對(duì)新增用戶的人口屬性進(jìn)行判定。

聚類

　　聚類是把相似的對(duì)象通過靜態(tài)分類的方法分成不同的組別或更多的子集（subset），同一個(gè)子集中的成員都有相似的屬性，聚類分析可以看作一種非監(jiān)督學(xué)習(xí)的技術(shù)。

　　在Spark2.0版本中（不是基于RDD API的MLlib），共有四種聚類方法：
   （1）K-means
   （2）Latent Dirichlet allocation (LDA)
   （3）Bisecting k-means（二分k均值算法）
   （4）Gaussian Mixture Model (GMM)。
   基于RDD API的MLLib中，共有六種聚類方法：
   （1）K-means
   （2）Gaussian mixture
   （3）Power iteration clustering (PIC)
   （4）Latent Dirichlet allocation (LDA)**
   （5）Bisecting k-means
   （6）Streaming k-means
   多了Power iteration clustering (PIC)和Streaming k-means兩種

常用的是K-means算法。

　　K均值算法（K-Means）是一種劃分聚類方法。算法思路是通過迭代尋找聚類中心使各個(gè)樣本與所在類均值的誤差平方和達(dá)到最小。

　　KMeans 是一個(gè)迭代求解的聚類算法，其屬于劃分（Partitioning）型的聚類方法，即首先創(chuàng)建K個(gè)劃分，然后迭代地將樣本從一個(gè)劃分轉(zhuǎn)移到另一個(gè)劃分來改善最終聚類的質(zhì)量。
　　K-Means聚類算法能輕松地對(duì)聚類問題建模。K-Means聚類算法容易理解，并且能在分布式的環(huán)境下并行運(yùn)行。學(xué)習(xí)K-Means聚類算法，能更容易地理解聚類算法的優(yōu)缺點(diǎn)，以及其他算法對(duì)于特定數(shù)據(jù)的高效性
　　K-Means聚類算法中的K是聚類的數(shù)目，在算法中會(huì)強(qiáng)制要求用戶輸入。如果將新聞聚類成諸如政治、經(jīng)濟(jì)、文化等大類，可以選擇10~20的數(shù)字作為K。因?yàn)檫@種頂級(jí)類別的數(shù)量是很小的。如果要對(duì)這些新聞詳細(xì)分類，選擇50~100的數(shù)字也是沒有問題的。K-Means聚類算法主要可以分為三步。
　　第一步是為待聚類的點(diǎn)尋找隨機(jī)選取K個(gè)樣本為初始聚類中心；
　　第二步是計(jì)算每個(gè)點(diǎn)聚類中心的距離，將每個(gè)點(diǎn)聚類到離該點(diǎn)最近的聚類中去；
　　第三步是計(jì)算聚類中所有點(diǎn)的坐標(biāo)平均值，并將這個(gè)平均值作為新的聚類中心點(diǎn)。
　　反復(fù)執(zhí)行第二步，直到聚類中心不再進(jìn)行大范圍的移動(dòng)，或者聚類次數(shù)達(dá)到要求為止。

聚類算法使用場景

1、基于用戶位置信息的商業(yè)選址
　　隨著信息技術(shù)的快速發(fā)展，移動(dòng)設(shè)備和移動(dòng)互聯(lián)網(wǎng)已經(jīng)普及到千家萬戶。在用戶使用移動(dòng)網(wǎng)絡(luò)時(shí)，會(huì)自然的留下用戶的位置信息。隨著近年來GIS地理信息技術(shù)的不斷完善普及，結(jié)合用戶位置和GIS地理信息將帶來創(chuàng)新應(yīng)用。如百度與萬達(dá)進(jìn)行合作，通過定位用戶的位置，結(jié)合萬達(dá)的商戶信息，向用戶推送位置營銷服務(wù)，提升商戶效益。
　　希望通過大量移動(dòng)設(shè)備用戶的位置信息，為某連鎖餐飲機(jī)構(gòu)提供新店選址。

2、中文地址標(biāo)準(zhǔn)化處理
　　地址是一個(gè)涵蓋豐富信息的變量，但長期以來由于中文處理的復(fù)雜性、國內(nèi)中文地址命名的不規(guī)范性，使地址中蘊(yùn)含的豐富信息不能被深度分析挖掘。通過對(duì)地址進(jìn)行標(biāo)準(zhǔn)化的處理，使基于地址的多維度量化挖掘分析成為可能，為不同場景模式下的電子商務(wù)應(yīng)用挖掘提供了更加豐富的方法和手段，因此具有重要的現(xiàn)實(shí)意義。

3、非人惡意流量識(shí)別
　　2016年第一季度Facebook發(fā)文稱，其Atlas DSP平臺(tái)半年的流量質(zhì)量測試結(jié)果顯示，由機(jī)器人模擬和黑IP等手段導(dǎo)致的非人惡意流量高達(dá)75% . 僅2016上半年，AdMaster反作弊解決方案認(rèn)定平均每天能有高達(dá) 28% 的作弊流量。低質(zhì)量虛假流量的問題一直存在，這也是過去十年間數(shù)字營銷行業(yè)一直在博弈的問題。基于AdMaster海量監(jiān)測數(shù)據(jù)，50%以上的項(xiàng)目均存在作弊嫌疑；不同項(xiàng)目中，作弊流量占廣告投放5%到95%不等；其中垂直類和網(wǎng)盟類媒體的作弊流量占比最高；PC端作弊流量比例顯著高于移動(dòng)端和智能電視平臺(tái)。廣告監(jiān)測行為數(shù)據(jù)被越來越多地用于建模和做決策，例如繪制用戶畫像，跨設(shè)備識(shí)別對(duì)應(yīng)用戶等。作弊行為，惡意曝光，網(wǎng)絡(luò)爬蟲，誤導(dǎo)點(diǎn)擊，甚至是在用戶完全無感知的情況下被控制訪問等產(chǎn)生的不由用戶主觀發(fā)出的行為給數(shù)據(jù)帶來了巨大的噪聲，給模型訓(xùn)練造成了很大影響。
　　希望基于給定的數(shù)據(jù)，建立一個(gè)模型來識(shí)別和標(biāo)記作弊流量，去除數(shù)據(jù)的噪聲，從而更好的使用數(shù)據(jù)，使得廣告主的利益最大化。

協(xié)同過濾

　　協(xié)同過濾（Collaborative Filtering，簡稱CF，WIKI上的定義是：簡單來說是利用某個(gè)興趣相投、擁有共同經(jīng)驗(yàn)之群體的喜好來推薦感興趣的資訊給使用者，個(gè)人透過合作的機(jī)制給予資訊相當(dāng)程度的回應(yīng)（如評(píng)分）并記錄下來以達(dá)到過濾的目的，進(jìn)而幫助別人篩選資訊，回應(yīng)不一定局限于特別感興趣的，特別不感興趣資訊的紀(jì)錄也相當(dāng)重要。

　　協(xié)同過濾常被應(yīng)用于推薦系統(tǒng)。這些技術(shù)旨在補(bǔ)充用戶—商品關(guān)聯(lián)矩陣中所缺失的部分。

　　MLlib 當(dāng)前支持基于模型的協(xié)同過濾，其中用戶和商品通過一小組隱性因子進(jìn)行表達(dá)，并且這些因子也用于預(yù)測缺失的元素。MLLib 使用交替最小二乘法（ALS）來學(xué)習(xí)這些隱性因子。

　　用戶對(duì)物品或者信息的偏好，根據(jù)應(yīng)用本身的不同，可能包括用戶對(duì)物品的評(píng)分、用戶查看物品的記錄、用戶的購買記錄等。其實(shí)這些用戶的偏好信息可以分為兩類：

顯式的用戶反饋：這類是用戶在網(wǎng)站上自然瀏覽或者使用網(wǎng)站以外，顯式地提供反饋信息，例如用戶對(duì)物品的評(píng)分或者對(duì)物品的評(píng)論。
隱式的用戶反饋：這類是用戶在使用網(wǎng)站是產(chǎn)生的數(shù)據(jù)，隱式地反映了用戶對(duì)物品的喜好，例如用戶購買了某物品，用戶查看了某物品的信息，等等。

　　顯式的用戶反饋能準(zhǔn)確地反映用戶對(duì)物品的真實(shí)喜好，但需要用戶付出額外的代價(jià)；而隱式的用戶行為，通過一些分析和處理，也能反映用戶的喜好，只是數(shù)據(jù)不是很精確，有些行為的分析存在較大的噪音。但只要選擇正確的行為特征，隱式的用戶反饋也能得到很好的效果，只是行為特征的選擇可能在不同的應(yīng)用中有很大的不同，例如在電子商務(wù)的網(wǎng)站上，購買行為其實(shí)就是一個(gè)能很好表現(xiàn)用戶喜好的隱式反饋。

　　推薦引擎根據(jù)不同的推薦機(jī)制可能用到數(shù)據(jù)源中的一部分，然后根據(jù)這些數(shù)據(jù)，分析出一定的規(guī)則或者直接對(duì)用戶對(duì)其他物品的喜好進(jìn)行預(yù)測計(jì)算。這樣推薦引擎可以在用戶進(jìn)入時(shí)給他推薦他可能感興趣的物品。

　　MLlib目前支持基于協(xié)同過濾的模型，在這個(gè)模型里，用戶和產(chǎn)品被一組可以用來預(yù)測缺失項(xiàng)目的潛在因子來描述。特別是我們實(shí)現(xiàn)交替最小二乘（ALS）算法來學(xué)習(xí)這些潛在的因子，在 MLlib 中的實(shí)現(xiàn)有如下參數(shù)：

numBlocks是用于并行化計(jì)算的分塊個(gè)數(shù)（設(shè)置為-1時(shí) 為自動(dòng)配置）；
rank是模型中隱性因子的個(gè)數(shù)；
iterations是迭代的次數(shù)；
lambda是ALS 的正則化參數(shù)；
implicitPrefs決定了是用顯性反饋ALS 的版本還是用隱性反饋數(shù)據(jù)集的版本；
alpha是一個(gè)針對(duì)于隱性反饋 ALS 版本的參數(shù)，這個(gè)參數(shù)決定了偏好行為強(qiáng)度的基準(zhǔn)。

　　　　　　　　大數(shù)據(jù)潮流下的機(jī)器學(xué)習(xí)及應(yīng)用場景

協(xié)同過濾算法應(yīng)用場景

1、電商平臺(tái)的買了XX的還買了XX，組合搭配套餐、隨便看一看功能。

2、今日頭條的個(gè)性化推薦。

3、豆瓣相同興趣的小組。

4、電影推薦系統(tǒng)。

5、百度地圖基于地理位置的附近的美食

……

參考資料

1、Spark官網(wǎng)MLlib說明

2、Spark企業(yè)級(jí)實(shí)戰(zhàn)

3、天池DataCastleCCF

向AI問一下細(xì)節(jié)

大數(shù)據(jù)潮流下的機(jī)器學(xué)習(xí)及應(yīng)用場景

機(jī)器學(xué)習(xí)的分類

監(jiān)督學(xué)習(xí)

非監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)

機(jī)器學(xué)習(xí)常用算法

回歸算法

基于實(shí)例的算法

決策樹學(xué)習(xí)

貝葉斯學(xué)習(xí)

聚類、分類算法

機(jī)器學(xué)習(xí)庫Spark MLLib

Spark MLlib 架構(gòu)

MLLib中經(jīng)典算法解析

分類

分類算法使用場景

聚類

聚類算法使用場景

協(xié)同過濾

協(xié)同過濾算法 應(yīng)用場景

參考資料

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽

協(xié)同過濾算法應(yīng)用場景