溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

達(dá)觀數(shù)據(jù)分析推薦系統(tǒng)和搜索引擎關(guān)系

發(fā)布時間:2020-04-10 01:10:03 來源:網(wǎng)絡(luò) 閱讀:446 作者:大數(shù)據(jù)專家 欄目:網(wǎng)絡(luò)安全

推薦系統(tǒng)和搜索引擎的關(guān)系達(dá)觀陳運文

 

從信息獲取的角度來看,搜索和推薦是用戶獲取信息的兩種主要手段。無論在互聯(lián)網(wǎng)上,還是在線下的場景里,搜索和推薦這兩種方式都大量并存,那么推薦系統(tǒng)和搜索引擎這兩個系統(tǒng)到底有什么關(guān)系?區(qū)別和相似的地方有哪些?本文作者有幸同時具有搜索引擎和推薦系統(tǒng)一線的技術(shù)產(chǎn)品開發(fā)經(jīng)驗,結(jié)合自己的實踐經(jīng)驗來為大家闡述兩者之間的關(guān)系、分享自己的體會(達(dá)觀數(shù)據(jù)陳運文博士)

達(dá)觀數(shù)據(jù)分析推薦系統(tǒng)和搜索引擎關(guān)系

1:搜索引擎和推薦系統(tǒng)是獲取信息的兩種不同方式

主動或被動:搜索引擎和推薦系統(tǒng)的選擇

 

獲取信息是人類認(rèn)知世界、生存發(fā)展的剛需,搜索就是最明確的一種方式,其體現(xiàn)的動作就是“出去找”,找食物、找地點等,到了互聯(lián)網(wǎng)時代,搜索引擎(Search Engine)就是滿足找信息這個需求的最好工具,你輸入想要找的內(nèi)容(即在搜索框里輸入查詢詞,或稱為Query),搜索引擎快速的給你最好的結(jié)果,這樣的剛需催生了Google、百度這樣的互聯(lián)網(wǎng)巨頭。

 

但是獲取信息的方式除了搜索外,還有另一類,稱為推薦系統(tǒng)(Recommendation System,簡稱Recsys),推薦也是伴隨人類發(fā)展而生的一種基本技能,你一定遇到這樣的場景,初來乍到一個地方,會找當(dāng)?shù)氐呐笥汛蚵牎班?,請推薦下附近有啥好吃好玩的地方吧!”——知識、信息等通過推薦來傳播,這也是一種獲取信息的方式。

 

搜索和推薦的區(qū)別如圖1所示,搜索是一個非常主動的行為,并且用戶的需求十分明確,在搜索引擎提供的結(jié)果里,用戶也能通過瀏覽和點擊來明確的判斷是否滿足了用戶需求。然而,推薦系統(tǒng)接受信息是被動的,需求也都是模糊而不明確的。以“逛”商場為例,在用戶進(jìn)入商場的時候,如果需求不明確,這個時候需要推薦系統(tǒng),來告訴用戶有哪些優(yōu)質(zhì)的商品、哪些合適的內(nèi)容等,但如果用戶已經(jīng)非常明確當(dāng)下需要購買哪個品牌、什么型號的商品時,直接去找對應(yīng)的店鋪就行,這時就是搜索了。

 達(dá)觀數(shù)據(jù)分析推薦系統(tǒng)和搜索引擎關(guān)系

2:從搜索詞中可以看出,用戶有大量個性化推薦的需求

 

很多互聯(lián)網(wǎng)產(chǎn)品都需要同時滿足用戶這兩種需求,例如對提供音樂、新聞、或者電商服務(wù)的網(wǎng)站,必然要提供搜索功能,當(dāng)用戶想找某首歌或某樣商品的時候,輸入名字就能搜到;與此同時,也同時要提供推薦功能,當(dāng)用戶就是想來聽好聽的歌,或者打發(fā)時間看看新聞,但并不明確一定要聽哪首的時候,給予足夠好的推薦,提升用戶體驗。

 

 

個性化程度的高低

 

除了主被動外,另一個有趣的區(qū)別是個性化程度的高低之分。搜索引擎雖然也可以有一定程度的個性化,但是整體上個性化運作的空間是比較小的。因為當(dāng)需求非常明確時,找到結(jié)果的好壞通常沒有太多個性化的差異。例如搜“天氣”,搜索引擎可以將用戶所在地區(qū)的信息作補(bǔ)足,給出當(dāng)?shù)靥鞖獾慕Y(jié)果,但是個性化補(bǔ)足后給出的結(jié)果也是明確的了。

達(dá)觀數(shù)據(jù)分析推薦系統(tǒng)和搜索引擎關(guān)系

用戶對信息的個性化需求

 

 

但是推薦系統(tǒng)在個性化方面的運作空間要大得多,以“推薦好看的電影”為例,一百個用戶有一百種口味,并沒有一個“標(biāo)準(zhǔn)”的答案,推薦系統(tǒng)可以根據(jù)每位用戶歷史上的觀看行為、評分記錄等生成一個對當(dāng)前用戶最有價值的結(jié)果,這也是推薦系統(tǒng)有獨特魅力的地方。雖然推薦的種類有很多(例如相關(guān)推薦、個性化推薦等),但是個性化對于推薦系統(tǒng)是如此重要,以至于在很多時候大家干脆就把推薦系統(tǒng)稱為“個性化推薦”甚至“智能推薦”了。

 

 

快速滿足還是持續(xù)服務(wù)?

 

開發(fā)過搜索引擎的朋友都知道,評價搜索結(jié)果質(zhì)量的一個重要考量指標(biāo)是要幫用戶盡快的找到需要的結(jié)果并點擊離開。在設(shè)計搜索排序算法里,需要想盡辦法讓最好的結(jié)果排在最前面,往往搜索引擎的前三條結(jié)果聚集了絕大多數(shù)的用戶點擊。簡單來說,“好”的搜索算法是需要讓用戶獲取信息的效率更高、停留時間更短。

 

但是推薦恰恰相反,推薦算法和被推薦的內(nèi)容(例如商品、新聞等)往往是緊密結(jié)合在一起的,用戶獲取推薦結(jié)果的過程可以是持續(xù)的、長期的,衡量推薦系統(tǒng)是否足夠好,往往要依據(jù)是否能讓用戶停留更多的時間(例如多購買幾樣商品、多閱讀幾篇新聞等),對用戶興趣的挖掘越深入,越“懂”用戶,那么推薦的成功率越高,用戶也越樂意留在產(chǎn)品里。

 

所以對大量的內(nèi)容型應(yīng)用來說,打造一個優(yōu)秀的推薦系統(tǒng)是提升業(yè)績所不得不重視的手段。

 

 

推薦系統(tǒng)滿足難以文字表述的需求

 

目前主流的搜索引擎仍然是以文字構(gòu)成查詢詞(Query),這是因為文字是人們描述需求最簡潔、直接的方式,搜索引擎抓取和索引的絕大部分內(nèi)容也是以文字方式組織的。

 

因為這個因素,我們統(tǒng)計發(fā)現(xiàn)用戶輸入的搜索查詢詞也大都是比較短小的,查詢詞中包含5個或5個以內(nèi)元素(或稱Term)的占總查詢量的98%以上(例如:Query“達(dá)觀數(shù)據(jù)地址”,包含兩個元素“達(dá)觀數(shù)據(jù)”和“地址”)。

 

但另一方面,用戶存在著大量的需求是比較難用精煉的文字來組織的,例如想查找“離我比較近的且價格100元以內(nèi)的川菜館”、“和我正在看的這條裙子同款式的但是價格更優(yōu)惠的其他裙子”等需求。

 

一方面幾乎沒有用戶愿意輸入這么多字來找結(jié)果(用戶天然都是愿意偷懶的),另一方面搜索引擎對語義的理解目前還無法做到足夠深入;所以在滿足這些需求的時候,通過推薦系統(tǒng)設(shè)置的功能(例如頁面上設(shè)置的“相關(guān)推薦”、“猜你喜歡”等模塊),加上與用戶的交互(例如篩選、排序、點擊等),不斷積累和挖掘用戶偏好,可以將這些難以用文字表達(dá)的需求良好的滿足起來。

 

形象的來說,推薦引擎又被人們稱為是無聲的搜索,意思是用戶雖然不用主動輸入查詢詞來搜索,但是推薦引擎通過分析用戶歷史的行為、當(dāng)前的上下文場景,自動來生成復(fù)雜的查詢條件,進(jìn)而給出計算并推薦的結(jié)果。

 

 

馬太效應(yīng)和長尾理論

 

馬太效應(yīng)(Mattnew Effect是指強(qiáng)者愈強(qiáng)、弱者愈弱的現(xiàn)象,在互聯(lián)網(wǎng)中引申為熱門的產(chǎn)品受到更多的關(guān)注,冷門內(nèi)容則愈發(fā)的會被遺忘的現(xiàn)象。馬太效應(yīng)取名自圣經(jīng)《新約·馬太福音》的一則寓言: “凡有的,還要加倍給他叫他多余;沒有的,連他所有的也要奪過來。”

 

搜索引擎就非常充分的體現(xiàn)了馬太效應(yīng)——如下面的Google點擊熱圖,越紅的部分表示點擊多和熱,越偏紫色的部分表示點擊少而冷,絕大部分用戶的點擊都集中在頂部少量的結(jié)果上,下面的結(jié)果以及翻頁后的結(jié)果獲得的關(guān)注非常少。這也解釋了Google和百度的廣告為什么這么賺錢,企業(yè)客戶為什么要花大力氣做SEMSEO來提升排名——因為只有排到搜索結(jié)果的前面才有機(jī)會。

達(dá)觀數(shù)據(jù)分析推薦系統(tǒng)和搜索引擎關(guān)系

搜索引擎充分體現(xiàn)的馬太效應(yīng):頭部內(nèi)容吸引了絕大部分點擊

 

有意思的是,與馬太效應(yīng)相對應(yīng),還有一個非常有影響力的理論稱為長尾理論

 

長尾理論(Long Tail Effect是“連線”雜志主編克里斯·安德森(Chris Anderson)在200410月的“長尾”(Long Tail)一文中最早提出的,長尾實際上是統(tǒng)計學(xué)中冪率(Power Laws)和帕累托分布特征(Pareto Distribution)的拓展和口語化表達(dá),用來描述熱門和冷門物品的分布情況。Chris Anderson通過觀察數(shù)據(jù)發(fā)現(xiàn),在互聯(lián)網(wǎng)時代由于網(wǎng)絡(luò)技術(shù)能以很低的成本讓人們?nèi)カ@得更多的信息和選擇,在很多網(wǎng)站內(nèi)有越來越多的原先被“遺忘”的非最熱門的事物重新被人們關(guān)注起來。事實上,每一個人的品味和偏好都并非和主流人群完全一致,Chris指出:當(dāng)我們發(fā)現(xiàn)得越多,我們就越能體會到我們需要更多的選擇。如果說搜索引擎體現(xiàn)著馬太效應(yīng)的話,那么長尾理論則闡述了推薦系統(tǒng)發(fā)揮的價值。陳運文

達(dá)觀數(shù)據(jù)分析推薦系統(tǒng)和搜索引擎關(guān)系

推薦系統(tǒng)和長尾理論

 

一個實際的例子就是亞馬遜(Amazon)網(wǎng)絡(luò)書店和傳統(tǒng)大型書店的數(shù)據(jù)對比。市場上出版發(fā)行的圖書種類超過了數(shù)百萬,但是其中大部分圖書是無法在傳統(tǒng)大型書店上架銷售的(實體店鋪空間有限),而能放在書店顯著位置(例如暢銷書Best Seller貨架)上的更是鳳毛麟角,因此傳統(tǒng)書店的經(jīng)營模式多以暢銷書為中心。但是亞馬遜等網(wǎng)絡(luò)書店的發(fā)展為長尾書籍提供了無限廣闊的空間,用戶瀏覽、采購這些長尾書籍比傳統(tǒng)書店方便得多,于是互聯(lián)網(wǎng)時代銷售成千上萬的小眾圖書,哪怕一次僅賣一兩本,但是因為這些圖書的種類比熱門書籍要多得多,就像長長的尾巴那樣,這些圖書的銷量積累起來甚至超過那些暢銷書。正如亞馬遜的史蒂夫·凱賽爾所說:“如果我有10萬種書,哪怕一次僅賣掉一本,10年后加起來它們的銷售就會超過最新出版的《哈利·波特》!”

 

 

長尾理論作為一種新的經(jīng)濟(jì)模式,被成功的應(yīng)用于網(wǎng)絡(luò)經(jīng)濟(jì)領(lǐng)域。而對長尾資源的盤活和利用,恰恰是推薦系統(tǒng)所擅長的,因為用戶對長尾內(nèi)容通常是陌生的,無法主動搜索,唯有通過推薦的方式,引起用戶的注意,發(fā)掘出用戶的興趣,幫助用戶做出最終的選擇。

 

盤活長尾內(nèi)容對企業(yè)來說也是非常關(guān)鍵的,營造一個內(nèi)容豐富、百花齊放的生態(tài),能保障企業(yè)健康的生態(tài)。試想一下,一個企業(yè)如果只依賴0.1%的“爆款”商品或內(nèi)容來吸引人氣,那么隨著時間推移這些爆款不再受歡迎,而新的爆款又沒有及時補(bǔ)位,那么企業(yè)的業(yè)績必然會有巨大波動。

 

只依賴最熱門內(nèi)容的另一個不易察覺的危險是潛在用戶的流失:因為只依賴爆款雖然能吸引一批用戶(簡稱A類用戶),但同時也悄悄排斥了對這些熱門內(nèi)容并不感冒的用戶(簡稱B類用戶),按照長尾理論,B類用戶的數(shù)量并不少,并且隨時間推移A類用戶會逐步轉(zhuǎn)變?yōu)?/span>B類用戶(因為人們都是喜新厭舊的),所以依靠推薦系統(tǒng)來充分滿足用戶個性化、差異化的需求,讓長尾內(nèi)容在合適的時機(jī)來曝光,維護(hù)企業(yè)健康的生態(tài),才能讓企業(yè)的運轉(zhuǎn)更穩(wěn)定,波動更小。

 

 

評價方法的異同

 

搜索引擎通?;?span >Cranfield評價體系,并基于信息檢索中常用的評價指標(biāo),例如nDCG(英文全稱為normalizeDiscounted Cumulative Gain)、Precision-Recall(或其組合方式F1)、P@N等方法,具體可參見之前發(fā)表于InfoQ的文章《怎樣量化評價搜索引擎的結(jié)果質(zhì)量 陳運文》。整體上看,評價的著眼點在于將優(yōu)質(zhì)結(jié)果盡可能排到搜索結(jié)果的最前面,前10條結(jié)果(對應(yīng)搜索結(jié)果的第一頁)幾乎涵蓋了搜索引擎評估的主要內(nèi)容。讓用戶以最少的點擊次數(shù)、最快的速度找到內(nèi)容是評價的核心。

 

推薦系統(tǒng)的評價面要寬泛的多,往往推薦結(jié)果的數(shù)量要多很多,出現(xiàn)的位置、場景也非常復(fù)雜,從量化角度來看,當(dāng)應(yīng)用于Top-N結(jié)果推薦時,MAPMean Average Precison)或CTRClick Through Rate,計算廣告中常用)是普遍的計量方法;當(dāng)用于評分預(yù)測問題時,RMSERoot Mean Squared Error)或MAEMean Absolute Error)是常見量化方法。

 

由于推薦系統(tǒng)和實際業(yè)務(wù)綁定更為緊密,從業(yè)務(wù)角度也有很多側(cè)面評價方法,根據(jù)不同的業(yè)務(wù)形態(tài),有不同的方法,例如帶來的增量點擊,推薦成功數(shù),成交轉(zhuǎn)化提升量,用戶延長的停留時間等指標(biāo)。

 

 

搜索和推薦的相互交融

 

搜索和推薦雖然有很多差異,但兩者都是大數(shù)據(jù)技術(shù)的應(yīng)用分支,存在著大量的交疊。近年來,搜索引擎逐步融合了推薦系統(tǒng)的結(jié)果,例如右側(cè)的“相關(guān)推薦”、底部的“相關(guān)搜索詞”等,都使用了推薦系統(tǒng)的產(chǎn)品思路和運算方法(如下圖紅圈區(qū)域)。

 

在另一些平臺型電商網(wǎng)站中,由于結(jié)果數(shù)量巨大,且相關(guān)性并沒有明顯差異,因而對搜索結(jié)果的個性化排序有一定的運作空間,這里融合運用的個性化推薦技術(shù)也對促進(jìn)成交有良好的幫助。

 

達(dá)觀數(shù)據(jù)分析推薦系統(tǒng)和搜索引擎關(guān)系

搜索引擎中融合的推薦系統(tǒng)元素

 

推薦系統(tǒng)也大量運用了搜索引擎的技術(shù),搜索引擎解決運算性能的一個重要的數(shù)據(jù)結(jié)構(gòu)是倒排索引技術(shù)(Inverted Index),而在推薦系統(tǒng)中,一類重要算法是基于內(nèi)容的推薦(Content-based Recommendation),這其中大量運用了倒排索引、查詢、結(jié)果歸并等方法。另外點擊反饋(Click Feedback)算法等也都在兩者中大量運用以提升效果。

 

 

關(guān)于達(dá)觀數(shù)據(jù)

 

達(dá)觀數(shù)據(jù)分析推薦系統(tǒng)和搜索引擎關(guān)系

達(dá)觀數(shù)據(jù)是專注于企業(yè)大數(shù)據(jù)應(yīng)用服務(wù)的高科技創(chuàng)業(yè)公司,致力于為電商、新媒體、金融、企業(yè)等提供高質(zhì)量的大數(shù)據(jù)挖掘服務(wù),包括推薦系統(tǒng)和搜索引擎等技術(shù)服務(wù),力爭通過達(dá)觀數(shù)據(jù)積累的技術(shù)經(jīng)驗,幫助合作企業(yè)們提高業(yè)績,提升服務(wù)質(zhì)量,增強(qiáng)競爭力。

 

 

本文總結(jié)

 

作為大數(shù)據(jù)應(yīng)用的兩大類應(yīng)用,搜索引擎和推薦系統(tǒng)既相互伴隨和影響,又滿足不同的產(chǎn)品需求。在作為互聯(lián)網(wǎng)產(chǎn)品的連接器:連接人、信息、服務(wù)之間的橋梁,搜索和推薦有其各自的特點,本文對兩者的關(guān)系進(jìn)行了闡述,分析了異同。它們都是數(shù)據(jù)挖掘技術(shù)、信息檢索技術(shù)、計算統(tǒng)計學(xué)等悠久學(xué)科的智慧結(jié)晶,也關(guān)聯(lián)到認(rèn)知科學(xué)、預(yù)測理論、營銷學(xué)等相關(guān)學(xué)科,感興趣的讀者們可以延伸到這些相關(guān)學(xué)科里做更深入的了解。(文/陳運文)

 


附件:http://down.51cto.com/data/2367228
向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI