您好,登錄后才能下訂單哦!
本篇內(nèi)容主要講解“elasticsearch智能推薦系統(tǒng)用到的二分類模型是怎樣的”,感興趣的朋友不妨來(lái)看看。本文介紹的方法操作簡(jiǎn)單快捷,實(shí)用性強(qiáng)。下面就讓小編來(lái)帶大家學(xué)習(xí)“elasticsearch智能推薦系統(tǒng)用到的二分類模型是怎樣的”吧!
算法方案的設(shè)計(jì),在整體思路的指導(dǎo)下,先從數(shù)據(jù)調(diào)研入手,明確模型開(kāi)發(fā)應(yīng)用過(guò)程中需要著重關(guān)注的問(wèn)題。在算法方案設(shè)計(jì)中,加入對(duì)問(wèn)題的考量,以期得到優(yōu)化的模型結(jié)果。
整體算法方案如下圖所示:
樣本構(gòu)造對(duì)于任意數(shù)據(jù)挖掘場(chǎng)景都至關(guān)重要,推薦系統(tǒng)也不例外。
一般而言,用戶的購(gòu)買是偏少的,所以單單使用用戶購(gòu)買作為正樣本,會(huì)導(dǎo)致樣本量很少。為了解決這個(gè)問(wèn)題,將用戶有行為的課程定義為正樣本,其他的定義為負(fù)樣本。這些行為包括:點(diǎn)擊、收藏、分享、加購(gòu)物車、購(gòu)買等,由于各種行為代表的用戶對(duì)課程的偏好度是不同的,所以在后續(xù)建模中會(huì)通過(guò)樣本權(quán)重的方式體現(xiàn)出來(lái)。
用戶產(chǎn)生過(guò)行為的課程,只是所有課程中很小的一部分,所以如果直接把用戶沒(méi)有產(chǎn)生過(guò)行為的課程作為負(fù)樣本,會(huì)導(dǎo)致正負(fù)樣本比例嚴(yán)重失衡。所以在實(shí)際建模過(guò)程中,會(huì)對(duì)負(fù)樣本進(jìn)行抽樣,根據(jù)以往的經(jīng)驗(yàn),抽樣后正負(fù)樣本比例可以設(shè)置為1:80。
本節(jié)將對(duì)特征工程的開(kāi)展思路進(jìn)行描述,最終采用的特征,還需要根據(jù)數(shù)據(jù)情況進(jìn)行調(diào)整。以下僅供參考,具體情況可詳見(jiàn)《標(biāo)簽/篩選體系》。
l 短期用戶行為的特征加工
類目下課程被點(diǎn)擊、收藏、分享、加購(gòu)物車、購(gòu)買等的次數(shù)
不同標(biāo)簽下課程被點(diǎn)擊、收藏、分享、購(gòu)買等的次數(shù)
用戶近期是否點(diǎn)擊、收藏該課程
l 課程屬性特征
課程所屬類目
課程所屬標(biāo)簽
課程銷量和相似課程銷量均值的比值
課程價(jià)格和相似課程價(jià)格均值的比值
近期被點(diǎn)擊次、分享、收藏、加購(gòu)物車的次數(shù)
課程標(biāo)題詞的個(gè)數(shù)、圖片個(gè)數(shù)、以及和相似課程的均值的比值
上架天數(shù)
l 用戶屬性特征
性別、年齡、職業(yè)、地域、app使用天數(shù)
l 用戶長(zhǎng)期偏好
矩陣分解得到的用戶標(biāo)簽偏好
用戶價(jià)格偏好
模型訓(xùn)練主要考慮PLM、LightGBM、FM等模型,各模型各有優(yōu)劣:
l PLM 在線性模型的基礎(chǔ)上加入分塊,可以實(shí)現(xiàn)非線性的效果。訓(xùn)練和預(yù)測(cè)速度快,適應(yīng)大規(guī)模稀疏特征。
l LightGBM 基于決策樹(shù)的迭代式模型。適合于稠密特征,模型精度高。但訓(xùn)練、預(yù)測(cè)速度不高,不適用于大規(guī)模稀疏特征。
l FM 自動(dòng)進(jìn)行特征之間的交叉,能發(fā)現(xiàn)有用的特征交叉。訓(xùn)練和預(yù)測(cè)速度快,但本質(zhì)上是線性模型,可能效果不能得到保證。
在評(píng)價(jià)指標(biāo)的選擇上,主要關(guān)注準(zhǔn)確率,兼顧覆蓋率,準(zhǔn)確率考慮采用MAP@k,DDCG@k等評(píng)價(jià)指標(biāo)。
在項(xiàng)目開(kāi)展過(guò)程中對(duì)各模型進(jìn)行分別調(diào)優(yōu),并根據(jù)評(píng)價(jià)指標(biāo)迭代式地優(yōu)化特征和模型,不斷提升離線評(píng)估效果。
在評(píng)價(jià)指標(biāo)的選擇上,主要從用戶滿意度、預(yù)測(cè)準(zhǔn)確度以及覆蓋率3個(gè)方面考慮:
l 用戶的滿意度是評(píng)測(cè)推薦系統(tǒng)最重要的指標(biāo),但是用戶滿意度無(wú)法通過(guò)離線計(jì)算,一般通過(guò)用戶調(diào)查、在線實(shí)驗(yàn)獲取。或者可以通過(guò)分析用戶行為日志計(jì)算用戶滿意度,大致的計(jì)算方式為:計(jì)算推薦的課程中,用戶購(gòu)買并且評(píng)分較高的課程的占比。
l 預(yù)測(cè)準(zhǔn)確度是最重要的推薦系統(tǒng)離線評(píng)測(cè)指標(biāo),包含評(píng)分預(yù)測(cè)和TopN推薦兩個(gè)方面。評(píng)分預(yù)測(cè)的預(yù)測(cè)準(zhǔn)確度通過(guò)均方根誤差(RMSE)和平均絕對(duì)誤差(MAE)度量;TopN推薦的預(yù)測(cè)準(zhǔn)確度通過(guò)準(zhǔn)確度(Precision)和召回率(Recall)度量。
l 覆蓋率(Coverage)描述的是一個(gè)推薦系統(tǒng)對(duì)物品長(zhǎng)尾的發(fā)掘能力,其定義指標(biāo)有2種。第一種是信息熵,計(jì)算公式如下:
這里p(i)是物品i的流行度除以所有物品流行度之和。
第二種是基尼指數(shù),計(jì)算公式如下:
這里ij是按照物品流行度p(i)從小到大排序的物品列表中第j個(gè)物品。
另外mAP@k,DDCG@k等也是模型評(píng)測(cè)的重要指標(biāo)。
在項(xiàng)目開(kāi)展過(guò)程中對(duì)各模型進(jìn)行分別調(diào)優(yōu),并權(quán)衡各項(xiàng)評(píng)價(jià)指標(biāo)迭代式地優(yōu)化特征和模型,不斷提升離線評(píng)估效果。
在模型實(shí)際應(yīng)用中,需要關(guān)注模型的運(yùn)行效率,更新頻率等方面,下面對(duì)這兩個(gè)方面進(jìn)行展開(kāi)。
對(duì)全量的用戶和課程組合進(jìn)行預(yù)測(cè)的話,需要進(jìn)行n*m條記錄進(jìn)行預(yù)測(cè),其中n為用戶數(shù),m為課程數(shù),非常消耗資源。所以對(duì)于單個(gè)用戶,需要篩選一部分課程,只預(yù)測(cè)用戶對(duì)這些課程的偏好評(píng)分。目前考慮將以下幾部分課程納入預(yù)測(cè)范圍:
l 運(yùn)營(yíng)課程
l 熱門課程
主要針對(duì)新用戶,用于給他們推薦人們課程
l 用戶近期常點(diǎn)擊類目下的課程、近期常點(diǎn)擊標(biāo)簽下的課程
用戶近期常點(diǎn)擊的課程,某種程度上代表了用戶近期的需求
而近期常點(diǎn)標(biāo)簽,具有某種程度的發(fā)散性,比如關(guān)于品牌的標(biāo)簽會(huì)發(fā)散到同品牌課程,關(guān)于功用的標(biāo)簽會(huì)發(fā)散到同功用課程
有助于新上架課程的發(fā)現(xiàn)
l 基于協(xié)同過(guò)濾算法給出的推薦課程
用標(biāo)簽代替課程,進(jìn)行基于用戶的協(xié)同過(guò)濾和基于課程的協(xié)同過(guò)濾,對(duì)于推薦課程的新穎性會(huì)帶來(lái)提升
目前的算法設(shè)計(jì)為一天更新一次。在每天夜里,會(huì)將今天的新數(shù)據(jù)納入模型訓(xùn)練、預(yù)測(cè)的范圍,包括新產(chǎn)生的用戶行為,新課程信息,新用戶數(shù)據(jù)。
因?yàn)槟壳澳P褪请x線模型,用戶當(dāng)前新產(chǎn)生的行為并不會(huì)影響推薦結(jié)果,要等到第二天模型更新完成后才會(huì)產(chǎn)生新的推薦。
模型對(duì)商品作出預(yù)測(cè)后,會(huì)生成用戶對(duì)商品的偏好得分。下面對(duì)于三個(gè)不同的場(chǎng)景分開(kāi)進(jìn)行設(shè)計(jì)。
1. 對(duì)運(yùn)營(yíng)商品進(jìn)行推薦
首先從運(yùn)營(yíng)表中獲取運(yùn)營(yíng)商品的id,接著關(guān)聯(lián)用戶商品評(píng)分表,獲取用戶對(duì)商品的偏好度,按偏好度控制app上商品的顯示順序
2. 對(duì)指定類目下商品進(jìn)行推薦
首先獲取指定類目下商品的id,接著關(guān)聯(lián)用戶商品評(píng)分表,獲取用戶對(duì)商品的偏好度,按偏好度控制app上商品的顯示順序。
3. 搜索推薦
通過(guò)ElasticSearch獲取商品搜索相關(guān)度后,關(guān)聯(lián)用戶商品評(píng)分表,將用戶對(duì)商品的偏好度乘以搜索相關(guān)度,得到綜合評(píng)分,按該評(píng)分控制app上搜索商品的顯示順序。
到此,相信大家對(duì)“elasticsearch智能推薦系統(tǒng)用到的二分類模型是怎樣的”有了更深的了解,不妨來(lái)實(shí)際操作一番吧!這里是億速云網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。