溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

短?本聚類(lèi)的問(wèn)題有哪些

發(fā)布時(shí)間:2021-10-12 15:59:37 來(lái)源:億速云 閱讀:164 作者:iii 欄目:編程語(yǔ)言

本篇內(nèi)容介紹了“短?本聚類(lèi)的問(wèn)題有哪些”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

短?本聚類(lèi)的問(wèn)題有哪些

一、背景和問(wèn)題介紹

搜索是用戶明確表達(dá)需求的場(chǎng)景,百度搜索每天承接海量請(qǐng)求,query的表達(dá)多種多樣。大規(guī)模短文本聚類(lèi)系統(tǒng),核心目的就是對(duì)以query為代表的短文本進(jìn)行總結(jié)歸納,**精準(zhǔn)高效地將含義相同表達(dá)不同的短文本,凝練成含義內(nèi)聚表達(dá)清晰的“需求”。**這種方式不僅可以壓縮短文本量級(jí),還能更好的滿足用戶需求,幫助內(nèi)容提供方,提供更好的內(nèi)容。目前已經(jīng)輔助了百度UGC產(chǎn)品的內(nèi)容生產(chǎn)。

在這一節(jié)中,我們先介紹短文本聚類(lèi)問(wèn)題,并介紹常用聚類(lèi)算法,最后分析聚類(lèi)算法在搜索場(chǎng)景下的難點(diǎn)和挑戰(zhàn)。

1.1  短?本聚類(lèi)問(wèn)題

聚類(lèi)是一種常用的無(wú)監(jiān)督算法,按照某個(gè)距離度量方式把一個(gè)數(shù)據(jù)集分割成不同的類(lèi)或簇,使得同一個(gè)簇內(nèi)的數(shù)據(jù)對(duì)象的相似性盡可能大,同時(shí)不在同一個(gè)簇中的數(shù)據(jù)對(duì)象的差異性也盡可能地大。

一般來(lái)說(shuō),搜索query以短文本為主。從大量的短文本中,盡可能地將含義一致的所有文本,聚合在一起,形成一個(gè)**“需求簇”**,就是短文本聚類(lèi)問(wèn)題。

舉例來(lái)說(shuō): 短?本聚類(lèi)的問(wèn)題有哪些

其中,query="?機(jī)碎屏了怎么辦?" 和query=“求助,?機(jī)屏幕摔碎了”是相同的需求,可以聚合成為?個(gè)簇;query="???什么意思",query="?抬頭什么意思" 和query="?抬頭有什么典故"是相同的需求,可以聚合成為?個(gè)簇。

可以看出,搜索query場(chǎng)景下的短?本聚類(lèi)問(wèn)題,和常規(guī)聚類(lèi)問(wèn)題,有?個(gè)明顯的區(qū)別:**“簇”的內(nèi)涵相對(duì)集中,**也就是說(shuō),聚合完成后,簇的量級(jí)相對(duì)較?,同?個(gè)簇內(nèi)的數(shù)據(jù),距離較近。

1.2  常?算法和框架

simhash

在?本聚類(lèi)領(lǐng)域,simhash是?種常?的局部敏感哈希算法,常常被?來(lái)作為搜索引擎中的??去重算法。它?圖以較?的概率,將相似的?檔映射為相同的哈希值,從?起到聚類(lèi)(去重)的?的。

simhash算法?般會(huì)將?檔進(jìn)?分詞處理,并給出每個(gè)詞的權(quán)重,再為每個(gè)詞計(jì)算?個(gè)哈希值,將所有詞的哈希值加權(quán)對(duì)位求和后,再采?對(duì)位?值化降維,產(chǎn)出最終?檔的哈希值。過(guò)程中使?了詞的重要性加權(quán),所以重要的詞對(duì)最終?檔哈希值的影響會(huì)更?,?不重要的詞,對(duì)最終?檔哈希值的影響就會(huì)更?,從?相似的?檔,產(chǎn)?相同哈希值的可能性就會(huì)更?。

在??檔聚類(lèi)(去重)領(lǐng)域,simhash是?種?效的算法,但是,對(duì)短?本聚類(lèi)??,由于?本?度?幅度減少,simhash的有效性??降低了,不能保證產(chǎn)出結(jié)果的準(zhǔn)確性。

向量化聚類(lèi)

另?種常?的?本聚類(lèi)?式,?先會(huì)將?本向量化,再采?常規(guī)聚類(lèi)?法進(jìn)?聚類(lèi)。其中,?本向量化的?式很多,從早期的tf-idf,到?便快捷的word2vec,甚?是采?bert,ernie等預(yù)訓(xùn)練模型產(chǎn)出的?本向量,都可以作為?本的向量化表征。?般來(lái)說(shuō),向量化?法會(huì)暗含分布式假設(shè),產(chǎn)出的文本向量,可以在?定程度上解決同義詞的問(wèn)題。

聚類(lèi)的?式也多種多樣,例如常?的kmeans,層級(jí)化聚簇,single-pass等。特別需要注意的是,在設(shè)計(jì)聚類(lèi)算法的距離度量時(shí),需要特別考慮向量化的?式,針對(duì)不同的向量化?式,設(shè)計(jì)不同的距離度量。

這類(lèi)算法存在三點(diǎn)問(wèn)題:

1、以kmeans為代表的聚類(lèi)算法,存在超參數(shù)“簇?cái)?shù)量”,只能借助經(jīng)驗(yàn)和輔助指標(biāo)進(jìn)?判定; 2、對(duì)短?本聚類(lèi)問(wèn)題,簇的數(shù)量往往特別?,會(huì)導(dǎo)致聚類(lèi)算法性能?chē)?yán)重下降; 3、聚類(lèi)結(jié)果準(zhǔn)確率受向量化和聚類(lèi)算法雙重影響,難以表達(dá)數(shù)據(jù)的細(xì)粒度差異。

其他算法和對(duì)?

盡管短?本聚類(lèi)算法,在業(yè)界具有較多應(yīng)?場(chǎng)景,但是在研究領(lǐng)域,它仍是?個(gè)相對(duì)?眾的分?,主要采?改進(jìn)?本向量化表示的?案,例如句?向量被設(shè)計(jì)成詞向量加權(quán)矩陣的第?主成分,??直接加權(quán);例如采?聚簇引導(dǎo)的向量迭代的?式,改進(jìn)向量化表示,例如SIF+Aut。但不論是哪種改進(jìn),都會(huì)增加較?的計(jì)算開(kāi)銷(xiāo),在?業(yè)界并不現(xiàn)實(shí)。

短?本聚類(lèi)的問(wèn)題有哪些

1.3  ?規(guī)模短?本聚類(lèi)的難點(diǎn)

我們?對(duì)的問(wèn)題是?規(guī)模短?本聚類(lèi),它還包含3個(gè)隱含的限制條件:

1、聚類(lèi)結(jié)果的準(zhǔn)確性要求?常嚴(yán)格; 2、短?本數(shù)量規(guī)模?常?; 3、數(shù)據(jù)產(chǎn)出時(shí)效要求高;

不難看出,常規(guī)算法在運(yùn)算效率和準(zhǔn)確性方面,很難同時(shí)滿足上述三個(gè)要求;而工業(yè)界并沒(méi)有成熟框架,可以解決這個(gè)問(wèn)題;學(xué)術(shù)界算法距離工業(yè)場(chǎng)景應(yīng)用還有一定距離;我們需要一種新的思路來(lái)解決問(wèn)題。

在設(shè)計(jì)算法時(shí),需要重點(diǎn)考慮如下問(wèn)題:

1、數(shù)據(jù)量級(jí)?,系統(tǒng)吞吐高:搜索query的量級(jí)是不言而喻的,對(duì)于億級(jí)別數(shù)據(jù),進(jìn)行高效計(jì)算,非??简?yàn)算法設(shè)計(jì)能力和工程架構(gòu)能力;

2、聚類(lèi)算法準(zhǔn)確率要求高:首先,聚類(lèi)算法是無(wú)監(jiān)督算法,采用向量空間上的距離度量,衡量聚類(lèi)結(jié)果的聚集程度,本質(zhì)上并沒(méi)有準(zhǔn)確率的概念;但是,在搜索query場(chǎng)景下,聚類(lèi)算法就有了明確的衡量指標(biāo):通過(guò)統(tǒng)一的文本相似性評(píng)估標(biāo)準(zhǔn),可以后驗(yàn)評(píng)估出在同一個(gè)簇中,結(jié)果是否相似, 在不同的簇中,數(shù)據(jù)是否不相似,從而可以衡量出聚類(lèi)準(zhǔn)確率。這為短文本聚類(lèi)算法戴上了“緊箍咒”:并不是任意聚類(lèi)算法都適用,需要考慮和文本相似度結(jié)合更緊密的聚類(lèi)算法。

“結(jié)合更緊密”是從向量空間中距離的定義來(lái)考慮的,例如,由相似度模型給出的相似度度量,并不一定是向量空間上“距離”。具體來(lái)說(shuō),向量空間上的一個(gè)定義良好的“距離”,需要滿足三角不等式:distance(A,B)+distance(B,C)>=distance(A,C), 但是,對(duì)于相似度,similarity(A,B)+similarity(B,C)與similarity(A,C)并不一定有穩(wěn)定的數(shù)量關(guān)系。因此,不能直接使用聚類(lèi)模型,只能將相似度作為“場(chǎng)外指導(dǎo)”,實(shí)現(xiàn)相似度指導(dǎo)下的聚類(lèi)算法。這導(dǎo)致一般的聚類(lèi)算法不能直接用于短文本聚類(lèi)。

3、文本相似度要求精度高,耗時(shí)短:文本相似度是一個(gè)場(chǎng)景依賴(lài)問(wèn)題,對(duì)于同樣的query對(duì),在不同的場(chǎng)景下,可能有截然不同的判定結(jié)果。在搜索場(chǎng)景下,對(duì)相似度的精度要求非常高,往往一字之差,就是完全不同的需求,因此模型需要能夠精確捕獲文本的細(xì)粒度差異;另一方面,希望盡可能地將相同需求的query聚合成為一個(gè)簇,減少漏召回的情況;也就是說(shuō),**對(duì)于短文本聚類(lèi)問(wèn)題,對(duì)文本相似度的準(zhǔn)確率和召回率都有很高要求;**除此之外,為了適應(yīng)大規(guī)模的調(diào)用,文本相似度服務(wù)需要具有響應(yīng)時(shí)長(zhǎng)短、易擴(kuò)展等特點(diǎn)。

4、文本表征復(fù)雜:文本表征指的是通過(guò)某種方式將文本轉(zhuǎn)化為語(yǔ)義向量,用于后續(xù)文本聚類(lèi)。文本向量的產(chǎn)出方式多種多樣,例如在simhash中,采用加權(quán)hash函數(shù)表達(dá)文本信息;還可以用word2vec詞向量加權(quán)產(chǎn)生文本的向量信息。除此之外,短文本的類(lèi)別,關(guān)鍵詞等信息,也是文本表征的重要組成部分;在文本向量化時(shí),需要重點(diǎn)考慮如何在向量空間中體現(xiàn)相似度。文本表征是一項(xiàng)重要且基礎(chǔ)的算法,選擇不同的文本表征,決定了不同的相似度度量方式,直接影響聚類(lèi)模型選型,間接影響最終結(jié)果。

5、誤差的發(fā)現(xiàn)和修復(fù):從文本表征到文本相似度,再到聚類(lèi)算法,每一步都會(huì)積累誤差,從而影響最終結(jié)果。對(duì)于大規(guī)模文本聚類(lèi),這個(gè)問(wèn)題尤為明顯,也是容易被忽略的環(huán)節(jié)。

1.4 ?規(guī)模短?本聚類(lèi)的總體思路

考慮到以上難點(diǎn),我們采?了多級(jí)拆分,逐個(gè)擊破的總體思路。

短?本聚類(lèi)的問(wèn)題有哪些

圖1:?規(guī)模短?本聚類(lèi)的總體思路

1.我們先將?規(guī)模短?本,進(jìn)?多級(jí)拆分,基本保證相同含義的query,?概率進(jìn)?同?個(gè)分桶中:

1.1?級(jí)拆分:需要保證拆分項(xiàng)在語(yǔ)義層?,含義互斥,也就是相同含義的query,必須進(jìn)?相同的桶中;

1.2?級(jí)拆分:?級(jí)拆分后,每個(gè)桶內(nèi)的query量級(jí)依然很?,還需要進(jìn)??級(jí)拆分,保證后續(xù)計(jì)算量級(jí)可控;

2.對(duì)同?個(gè)桶內(nèi)的query進(jìn)?精細(xì)化語(yǔ)義聚合,將含義相同的query,合并為?個(gè)簇;

3.對(duì)于同?個(gè)?級(jí)分桶中的語(yǔ)義簇,進(jìn)?誤差校驗(yàn),將需要合并的簇合并;

說(shuō)明:

1.為什么要拆分?假設(shè)我們的query數(shù)量量級(jí)為短?本聚類(lèi)的問(wèn)題有哪些,那么最差情況下,我們需要進(jìn)?短?本聚類(lèi)的問(wèn)題有哪些次相似度計(jì)算,才能完成?本聚類(lèi);然?,如果我們將數(shù)據(jù)進(jìn)?拆分,并且以較?的概率保證拆分互斥,短?本聚類(lèi)的問(wèn)題有哪些,那么只需要進(jìn)?短?本聚類(lèi)的問(wèn)題有哪些次相似度計(jì)算,量級(jí)是遠(yuǎn)?于的短?本聚類(lèi)的問(wèn)題有哪些

2.為什么需要多級(jí)拆分?如果把原始數(shù)據(jù)平級(jí)拆分的較細(xì),就會(huì)降低相似度調(diào)用次數(shù);但是平級(jí)拆分的越細(xì),就越不能保證語(yǔ)義互斥,這會(huì)導(dǎo)致需要進(jìn)行誤差校驗(yàn)的數(shù)量激增;如果我們采用多級(jí)拆分,保證頂部拆分的準(zhǔn)確率,就會(huì)減少誤差校驗(yàn)的數(shù)據(jù)量;

3.如何進(jìn)?語(yǔ)義聚簇?數(shù)據(jù)拆分后,需要在每個(gè)桶內(nèi),進(jìn)??本聚類(lèi),這也是整個(gè)?案最核?的地?;?前,有三種辦法可以解決:

3.1 基于?本字?的檢索聚類(lèi):雖然分到同?個(gè)桶中的數(shù)據(jù)量已經(jīng)??減少了,但是如果兩兩進(jìn)?相似度計(jì)算,數(shù)據(jù)量級(jí)依然很?;我們發(fā)現(xiàn),常規(guī)的關(guān)鍵詞搜索,可以保證召回?部分相似的query,只需要為召回的query計(jì)算相關(guān)性即可。

3.2 基于?本表征的聚類(lèi):雖然通過(guò)關(guān)鍵詞搜索,可以覆蓋?部分的相似query,但是召回并不全, 為了解決同義問(wèn)題、句式變換等導(dǎo)致的關(guān)鍵詞召回不全的問(wèn)題,我們使用了基于文本表征的召回方式:將向量化后的query,進(jìn)行細(xì)粒度的聚類(lèi),只需要對(duì)同一類(lèi)中的query計(jì)算相似度即可;

3.3 基于?本表征的檢索聚類(lèi):考慮細(xì)粒度的聚類(lèi)算法控制力較弱,還可以引入向量檢索,通過(guò)文本向量召回的方式,解決召回不全的問(wèn)題。

有效性分析

1. 解決了數(shù)據(jù)量級(jí)大,要求耗時(shí)短的問(wèn)題:當(dāng)前流程可以通過(guò)將數(shù)據(jù)進(jìn)行二級(jí)拆分,可以把大規(guī)模數(shù)據(jù),拆分為較小的數(shù)據(jù)塊,分配給不同的計(jì)算單元進(jìn)行計(jì)算,從而減少耗時(shí);我們進(jìn)行過(guò)估計(jì),在1億數(shù)據(jù)上,傳統(tǒng)兩兩對(duì)比的方式,計(jì)算需要耗時(shí)58年;而采用分層的方式, 只需要4天;雖然采用分級(jí)向量化聚簇(無(wú)相似度)的方式,可以將耗時(shí)降低為2天, 但是準(zhǔn)確率和召回率較低;

2. 優(yōu)化相似度, 提高相似度服務(wù)計(jì)算性能:我們對(duì)短文本相似度進(jìn)行了定制性?xún)?yōu)化,多實(shí)例部署,相似度服務(wù)的吞吐能力得到了100倍的提升;

3. 聚類(lèi)算法準(zhǔn)確率高:引入誤差修正機(jī)制,整體短文本聚類(lèi)算法準(zhǔn)確率從93%提升到了95%,召回率從71%提升到了80%;

基于以上分析, 對(duì)計(jì)算性能和計(jì)算效果進(jìn)行折中, 我們采用了分級(jí)向量化聚簇+優(yōu)化后的相似度作為最后的方案;

短?本聚類(lèi)的問(wèn)題有哪些

2、?規(guī)模短?本聚類(lèi)算法的演進(jìn)和思考

以上是我們經(jīng)過(guò)?段時(shí)間的探索后,總結(jié)出的?規(guī)模短?本聚類(lèi)問(wèn)題的解決?案。在過(guò)程中,我們進(jìn)?了兩個(gè)?版本的迭代。

2.1  v1.0:明確拆分的思路

在解決這個(gè)問(wèn)題的初期,我們面對(duì)兩種技術(shù)方案:一種是探索適合短文本的表征,將問(wèn)題轉(zhuǎn)化為特殊的向量聚類(lèi)的問(wèn)題,例如simhash;另一種是將數(shù)據(jù)集合進(jìn)行拆分,減少數(shù)據(jù)規(guī)模,加速相似度計(jì)算,解決聚類(lèi)問(wèn)題;經(jīng)過(guò)分析后,我們認(rèn)為方案一,在選擇合適的文本表征上,沒(méi)有可以指導(dǎo)優(yōu)化方向的中間指標(biāo),很難迭代優(yōu)化,因此,明確了將數(shù)據(jù)集合進(jìn)行拆分的思路。

首先,我們根據(jù)query的分類(lèi)和其他業(yè)務(wù)要求,將query進(jìn)行一級(jí)拆分,保證拆分結(jié)果語(yǔ)義互斥;

第二步,進(jìn)行二級(jí)拆分:為了保證二級(jí)拆分后的同一個(gè)桶內(nèi),數(shù)據(jù)量級(jí)適中,便于進(jìn)行精細(xì)化語(yǔ)義聚合,我們采用了層級(jí)化分桶的方式:

1. 對(duì)query計(jì)算高級(jí)語(yǔ)義特征,并進(jìn)行二值化操作,產(chǎn)出一個(gè)256維度的由0、1組成的向量

2. 首先取前50維向量,進(jìn)行hash粗聚;如果簇內(nèi)的數(shù)量超過(guò)一定數(shù)量,則對(duì)其中的query,擴(kuò)展維度到100維,重新進(jìn)行hash粗聚,直到維數(shù)達(dá)到256或者簇內(nèi)數(shù)量少于一定數(shù)量

第三步,對(duì)每一個(gè)桶內(nèi)的query,進(jìn)行精細(xì)化語(yǔ)義聚合,將含義相似的query,合并為一個(gè)簇中。

v1.0 的優(yōu)缺點(diǎn)分析

我們可以看出,由于采用了數(shù)據(jù)拆分的思路,將數(shù)據(jù)分桶后,進(jìn)行精細(xì)化語(yǔ)義聚類(lèi)時(shí),每個(gè)分桶之間的數(shù)據(jù)語(yǔ)義互斥,只需要在每個(gè)桶內(nèi)進(jìn)行語(yǔ)義聚合, 就可以產(chǎn)出數(shù)據(jù)了。這種方式便于并行化計(jì)算,對(duì)縮短計(jì)算耗時(shí)有很大貢獻(xiàn)。

在過(guò)程中, 我們也發(fā)現(xiàn),一些需要改進(jìn)的地方:

1. 聚類(lèi)結(jié)果的準(zhǔn)確性強(qiáng)依賴(lài)于相似度模型,并且是細(xì)粒度相似度模型,如果使用粗粒度相似度模型,會(huì)導(dǎo)致誤召回,因此需要一套可以區(qū)分細(xì)粒度相似程度的模型。

2. 使用層級(jí)化分桶進(jìn)行二級(jí)拆分,并不一定能保證語(yǔ)義相似的數(shù)據(jù)進(jìn)入一個(gè)桶中,層次化拆分使用的query向量表征,暗含了向量在語(yǔ)義表達(dá)上,具有隨維度增加逐漸細(xì)化的特點(diǎn),但是在產(chǎn)出query向量表征的過(guò)程中,并沒(méi)有施加此導(dǎo)向,不能保證這個(gè)假設(shè)成立;在v2.0中我們改動(dòng)了二級(jí)拆分的方式,克服了這個(gè)缺陷;

3. 缺少誤差發(fā)現(xiàn)和修正機(jī)制:不論相似度準(zhǔn)確率有多高,不論短文本的分類(lèi)有多準(zhǔn),都會(huì)有誤差;我們需要有機(jī)制可以發(fā)現(xiàn)和修正誤差。

2.2  v2.0:引?細(xì)粒度相似度

針對(duì)v1.0 發(fā)現(xiàn)的問(wèn)題,我們做了三點(diǎn)改動(dòng):

引入細(xì)粒度相似度

短文本文本聚類(lèi)的一個(gè)典型使用場(chǎng)景,是對(duì)搜索query進(jìn)行語(yǔ)義級(jí)別的合并,將相同需求不同表達(dá)的query,合并為一個(gè)“需求”,因此對(duì)于相似query的認(rèn)定,標(biāo)準(zhǔn)是較為嚴(yán)格的。已有的相似度模型,已經(jīng)不能適用了。經(jīng)過(guò)對(duì)query的詳細(xì)分析,我們發(fā)現(xiàn)句法分析,短語(yǔ)搭配等特征,能夠?qū)μ嵘嗨贫饶P偷臏?zhǔn)確率和召回率有較大幫助,因此,我們自研了一套融合了句法分析,短語(yǔ)搭配和其他特征的相似度模型,取得了較好的收益。

在二級(jí)拆分中引入聚類(lèi)模型

在v1.0 版本中,層次化分桶的準(zhǔn)確率得不到保證,需要有一個(gè)更準(zhǔn)確的二級(jí)拆分方式,達(dá)到數(shù)據(jù)分桶的目的。二級(jí)拆分只需要保證相似的短文本,大概率被分到同一個(gè)桶中,并不要求桶內(nèi)任意兩個(gè)短文本都是相似的,這樣的設(shè)置非常適合采用向量化后聚類(lèi)方法解決問(wèn)題。一方面考慮到預(yù)訓(xùn)練模型的性能問(wèn)題,我們采用了傳統(tǒng)詞向量加權(quán)的方式,產(chǎn)出短文本的詞向量;通過(guò)kmeans聚類(lèi)的方式,對(duì)一級(jí)桶的短文本進(jìn)行聚類(lèi)操作,從而保證了二級(jí)拆分的準(zhǔn)確率。

這里可能會(huì)有疑問(wèn),為什么不使用向量召回的方式解決問(wèn)題?其實(shí),向量召回的本質(zhì)是向量聚類(lèi),再輔以高效的向量查找,達(dá)到向量召回的目的。在二級(jí)拆分中,不需要進(jìn)行向量查找,而且如果引入會(huì)增加額外的時(shí)間開(kāi)銷(xiāo),因此我們并沒(méi)有使用向量召回。

誤差修正

在v1.0版本中,誤差逐層累計(jì)且沒(méi)有得到修正,為了克服這一點(diǎn),我們?cè)诋a(chǎn)出的最后一步,引入了誤差修正操作。

主要存在兩種形式的誤差: 一種是聚類(lèi)不全,應(yīng)該聚合在一起的數(shù)據(jù),沒(méi)有聚合在一起,這類(lèi)誤差主要是由于多級(jí)拆分引起的,通過(guò)跨越層級(jí)的校驗(yàn),可以解決這個(gè)問(wèn)題;另一種誤差是聚類(lèi)不準(zhǔn),主要是由于相似度計(jì)算導(dǎo)致的。我們重點(diǎn)解決聚類(lèi)不全的問(wèn)題。

為了減少需要校驗(yàn)的數(shù)據(jù)量級(jí),我們將誤差檢驗(yàn)的范圍,限制在二級(jí)分桶內(nèi)部。在二級(jí)分桶后,我們首先采用精細(xì)化語(yǔ)義聚合的方式,得到聚類(lèi)結(jié)果。對(duì)處于同一個(gè)二級(jí)桶內(nèi)的聚類(lèi)中心,驗(yàn)證其相關(guān)性。如果相關(guān)性較高,則進(jìn)一步驗(yàn)證后合并。

v2.0 的效果

v2.0上線后,能夠在很短的時(shí)間內(nèi)處理完成大規(guī)模短文本的精細(xì)化聚類(lèi),聚類(lèi)準(zhǔn)確率達(dá)到95%,召回率達(dá)到80%,已經(jīng)服務(wù)于百度UGC業(yè)務(wù)線的內(nèi)容生產(chǎn)。

持續(xù)優(yōu)化

v2.0版本基本實(shí)現(xiàn)了大規(guī)模短文本精細(xì)化聚類(lèi)的功能,但是仍有很多改動(dòng)空間。例如聚類(lèi)結(jié)果的持久化,重復(fù)計(jì)算問(wèn)題,更高效的聚合算法等,后續(xù)我們也會(huì)持續(xù)優(yōu)化,提供更高效穩(wěn)定的算法支持。

“短?本聚類(lèi)的問(wèn)題有哪些”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI