溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

機(jī)器學(xué)習(xí)在Quora實(shí)際運(yùn)營中有什么應(yīng)用

發(fā)布時(shí)間:2021-09-26 16:10:17 來源:億速云 閱讀:113 作者:iii 欄目:建站服務(wù)器

這篇文章主要講解了“機(jī)器學(xué)習(xí)在Quora實(shí)際運(yùn)營中有什么應(yīng)用”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“機(jī)器學(xué)習(xí)在Quora實(shí)際運(yùn)營中有什么應(yīng)用”吧!

排名

排名可以說是網(wǎng)上最重要的機(jī)器學(xué)習(xí)應(yīng)用之一了。大大小小的公司都圍繞著排名建立起業(yè)務(wù)模型,例如,查詢字符串返回的結(jié)果。Quora 在不同的環(huán)境、為了不同的目的,使用了不同的排名算法。

一個(gè)有趣的例子就是答案排名。假設(shè)一個(gè)問題有好幾個(gè)答案,我們感興趣的是,如何對它們降序排列,使得“最佳”答案在最前,而最差答案在最后。(見如下屏幕截圖)。
機(jī)器學(xué)習(xí)在Quora實(shí)際運(yùn)營中有什么應(yīng)用

確定一個(gè)問題答案的正確排序涉及到多種特征。要確定順序,首先我們要確定Quora如何定義“好答案”。我們的機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)了一種特殊的機(jī)器學(xué)習(xí)排名方法,使用了多種特征,試圖將與上述抽象概念相關(guān)聯(lián)的多個(gè)維度進(jìn)行編碼。例如,我們使用了描述寫作質(zhì)量信息的特征,也使用了描述該答案收到的互動(dòng)情況的特征(如贊、踩以及展開數(shù)量)。我們還使用了與答案作者相關(guān)的特征,比如,他在問題領(lǐng)域的專業(yè)性。

在Quora, 還有很多其他的排名應(yīng)用,有些甚至不為人察覺。例如,對于一個(gè)答案點(diǎn)贊的用戶名也是排序后顯示的,目的是要將我們認(rèn)為對于該問題/答案最有見識的用戶排在最前。同樣,對于特定問題顯示可能的回答者時(shí),那些推薦的用戶也是排過序的。

讓我們來仔細(xì)看看機(jī)器學(xué)習(xí)排名算法的兩個(gè)特例:搜索以及個(gè)性化排名。

搜索算法

對于Quora這樣的應(yīng)用,搜索算法可以被視為排名的另一個(gè)應(yīng)用。實(shí)際上,搜索可以分解為兩個(gè)步驟:文字匹配和排名。第一步,以某種方式返回與搜索框輸入的查詢字符串匹配的文檔(問題)。然后,這些文檔作為第二步的候選問題,進(jìn)行排名,以使點(diǎn)擊概率等方面得到優(yōu)化。

第二步中很多的特征可以使用,它確實(shí)是另一個(gè)機(jī)器學(xué)習(xí)排名算法的例子。包括已在最初文字匹配階段使用過的簡單文字特征,以及其它與用戶行為相關(guān)的特征,或是如流行度等對象屬性。

個(gè)性化排名

在如上文描述的一些場景中,也許一個(gè)對所有用戶的全局最優(yōu)排名就夠用了。換句話說,我們可以假定,對于給定問題,最“有幫助”答案的排序?qū)τ陂喿x答案的用戶來說是獨(dú)立的。然而,這一假設(shè)在很多重要場合并不成立。場合之一就是Quora Feed,從根本上說它是任意登入這一產(chǎn)品的用戶都可見的主頁。在這個(gè)主頁上,我們試圖為特定的用戶在特定的時(shí)間挑選最“有趣”的故事,并進(jìn)行排名(見下例)。這就是一個(gè)典型的機(jī)器學(xué)習(xí)個(gè)性化排名,與Netflix主頁對電影和電視劇進(jìn)行排名類似。
機(jī)器學(xué)習(xí)在Quora實(shí)際運(yùn)營中有什么應(yīng)用

而Quora的用例比Netflix電影電視劇排名更具挑戰(zhàn)性。事實(shí)上,我們的用例可以看作是Netflix、Facebook以及Google News優(yōu)化個(gè)性化排名的結(jié)合體。一方面,我們要保證排名靠前的故事在主題上與用戶相關(guān)。另一方面,Quora與用戶之間也有明確的關(guān)系。你在“社交網(wǎng)絡(luò)”上的行為也應(yīng)當(dāng)對排名有所影響。再次,Quora上的故事有時(shí)或許與正在進(jìn)行的潮流事件相關(guān)聯(lián)。及時(shí)性是另一個(gè)應(yīng)當(dāng)影響模型決策的因素,來決定一個(gè)故事的排名應(yīng)當(dāng)提升還是降低。

正因如此,Quora的個(gè)性化排名涉及到各種不同的特征。下面列出若干:

問題/答案的質(zhì)量
用戶感興趣的主題
該用戶關(guān)注的其他用戶
熱門事件
…
其實(shí),請務(wù)必記住,在Quora我們不僅對如何吸引用戶來閱讀有趣的內(nèi)容感興趣,也對將問題提交給能寫出有趣內(nèi)容的用戶感興趣。因此,我們必須將涉及答案趣味性的特征以及針對問題的特征都納入。為了得到這些特征,我們使用從用戶、作者以及對象(如答案/問題)行為推導(dǎo)出的信息。這些行為都被考慮在內(nèi)并累計(jì)在不同的時(shí)間窗口內(nèi),并提供給排名算法。實(shí)際上,可以得到很多不同的特征來加入我們的個(gè)性化推送模型,而且我們一直嘗試加入更多的特征。

對于我們的 Feed 排名應(yīng)用,另一個(gè)重要的考慮是我們需要能對用戶的行為、觀感,甚至是熱門事件做出響應(yīng)。我們數(shù)以百萬的問題和答案還在不停增長,因此我們不能試圖為每一個(gè)用戶進(jìn)行實(shí)時(shí)排名。為了優(yōu)化體驗(yàn),我們實(shí)現(xiàn)了一個(gè)多段式排名解決方案,其中提前就對候選者進(jìn)行選擇和排序,之后真正執(zhí)行最終的排名。

推薦

上述的個(gè)性化排名已經(jīng)是推薦的一種形式了。類似的方法用在不同的案例中。例如,廣受歡迎的Quora 郵件精選包括了一系列為你挑選并推薦的故事。這是一個(gè)不同的機(jī)器學(xué)習(xí)排名模型,根據(jù)不同的目標(biāo)函數(shù)進(jìn)行優(yōu)化。除了排名算法,我們在產(chǎn)品的各個(gè)不同部分有其它的個(gè)性化推薦算法。例如,在好幾處地方,你都可以看到人物或主題的推薦(見下圖)。
機(jī)器學(xué)習(xí)在Quora實(shí)際運(yùn)營中有什么應(yīng)用

相關(guān)問題

另一個(gè)推薦的源由是為了給用戶展示與當(dāng)前問題有某種關(guān)系的其他問題。

相關(guān)問題由另一個(gè)機(jī)器學(xué)習(xí)模型來確定的,它考慮多種不同特征,例如,文字相似性、共享數(shù)據(jù)(co-visit data),或是如主題等相同的特征。與流行度、或是問題質(zhì)量相關(guān)的特征也要考慮。有必要指出,一個(gè)好的“相似問題”推薦,不僅是一個(gè)條目與源問題有多相似,還包括目標(biāo)問題的“趣味性”。實(shí)際上,對于任何一個(gè)“相關(guān)條目”機(jī)器學(xué)習(xí)模型,最麻煩的問題是在相似性和其它關(guān)聯(lián)性因素間進(jìn)行權(quán)衡。
機(jī)器學(xué)習(xí)在Quora實(shí)際運(yùn)營中有什么應(yīng)用

相關(guān)問題這個(gè)模型對于吸引登出用戶從外部搜索中訪問問題頁面特別有效。這也是為何至今這一推薦模型并未個(gè)性化的原因之一。

重復(fù)問題

重復(fù)問題是上述相關(guān)問題的極端情況。對于Quora而言,這是一個(gè)難題,因?yàn)槲覀円WC用戶回答一個(gè)特定問題的精力會(huì)被分享,并且被集中到正確的地方。同樣,有必要為想要在網(wǎng)站上提問的用戶指出已有的答案。所以,我們花費(fèi)了大量精力來檢測重復(fù)問題,特別是在發(fā)起問題的階段。
機(jī)器學(xué)習(xí)在Quora實(shí)際運(yùn)營中有什么應(yīng)用

我們現(xiàn)有的解決方案是基于使用重復(fù)/非重復(fù)標(biāo)簽訓(xùn)練的二元分類器。我們使用多種信號量,包括從文本向量空間模型到基于使用量的特征。

用戶可信度/專業(yè)性推斷

在Quora這樣的應(yīng)用里,掌握用戶的可信度是非常重要的事情。實(shí)際上,我們并不僅僅完全局限于回答問題本身,還對其與相關(guān)主題的關(guān)聯(lián)性感興趣。某一用戶也許對于某些主題知識淵博,但對于其它領(lǐng)域就不一定了。Quora使用機(jī)器學(xué)習(xí)技術(shù)來推斷用戶的專業(yè)性。我們不僅了解用戶對于給定主題寫了什么答案,也知道這些答案得到了多少贊、多少踩,以及什么樣的評論。我們還知道這個(gè)用戶在這個(gè)領(lǐng)域得到了多少“推薦”。推薦(Endorsements)是從其他用戶角度對于某人專業(yè)性非常明確的認(rèn)可。

另外還有件要事要記住,可信度/專業(yè)性通過網(wǎng)絡(luò)傳播,這也需要被算法考慮。例如,如果一位機(jī)器學(xué)習(xí)專家對我在機(jī)器學(xué)習(xí)領(lǐng)域的回答給出一個(gè)贊,它的分量應(yīng)該超過該領(lǐng)域非專家的隨機(jī)用戶給出的贊。這也同樣適用于推薦以及其它用戶間特征。

垃圾信息檢測與節(jié)制(Moderation)

像Quora這樣以保持內(nèi)容高質(zhì)量為傲的網(wǎng)站,必須對使用垃圾、惡意或非常低質(zhì)量的內(nèi)容愚弄系統(tǒng)的行為非常警惕。純粹的人工審閱模式無法擴(kuò)展。而問題的解決之道,正如你猜測的那樣,是使用機(jī)器學(xué)習(xí)模型來檢測這些問題。

Quora有好些個(gè)模型來檢測內(nèi)容質(zhì)量相關(guān)的問題。這些分類器的輸出大部分情況下不會(huì)直接用作決策,而是將這些問題/答案提供給節(jié)制隊(duì)列,然后進(jìn)行人工審閱。

內(nèi)容創(chuàng)建的預(yù)測

對 Quora 來說,有一點(diǎn)非常重要,要記?。何覀儗ο到y(tǒng)很多部分進(jìn)行優(yōu)化,不只是為了吸引讀者,也是為了產(chǎn)出最好的質(zhì)量、最受歡迎的內(nèi)容。因此,我們有一個(gè)機(jī)器學(xué)習(xí)模型來預(yù)測某一用戶撰寫某一問題答案的可能性。這使得我們的系統(tǒng)能用多種方式給予這些問題優(yōu)先權(quán)。其中之一就是系統(tǒng)的自動(dòng) A2A(Ask to Answer),它將問題通過提示發(fā)送給潛在的回答者。上述其它的排名系統(tǒng)也使用這個(gè)模型來預(yù)測概率。

模型

Quora對于前文所述不同的案例嘗試過很多不同的模型。有時(shí),我們使用開源實(shí)現(xiàn),但更多時(shí)候我們最后實(shí)現(xiàn)了更有效、更靈活的內(nèi)部版本。我不會(huì)討論模型的細(xì)節(jié),但會(huì)列出我們系統(tǒng)使用的模型:

邏輯回歸
彈性網(wǎng)絡(luò)
梯度增強(qiáng)決策樹
隨機(jī)森林
神經(jīng)網(wǎng)絡(luò)
LambdaMART
矩陣分解
向量模型以及其它自然語言處理技術(shù)
…

感謝各位的閱讀,以上就是“機(jī)器學(xué)習(xí)在Quora實(shí)際運(yùn)營中有什么應(yīng)用”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對機(jī)器學(xué)習(xí)在Quora實(shí)際運(yùn)營中有什么應(yīng)用這一問題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識點(diǎn)的文章,歡迎關(guān)注!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI