短?本聚類(lèi)的問(wèn)題有哪些

發(fā)布時(shí)間：2021-10-12 15:59:37 來(lái)源：億速云閱讀：164 作者：iii 欄目：編程語(yǔ)言

本篇內(nèi)容介紹了“短?本聚類(lèi)的問(wèn)題有哪些”的有關(guān)知識(shí)，在實(shí)際案例的操作過(guò)程中，不少人都會(huì)遇到這樣的困境，接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧！希望大家仔細(xì)閱讀，能夠?qū)W有所成！

一、背景和問(wèn)題介紹

搜索是用戶明確表達(dá)需求的場(chǎng)景，百度搜索每天承接海量請(qǐng)求，query的表達(dá)多種多樣。大規(guī)模短文本聚類(lèi)系統(tǒng)，核心目的就是對(duì)以query為代表的短文本進(jìn)行總結(jié)歸納，**精準(zhǔn)高效地將含義相同表達(dá)不同的短文本，凝練成含義內(nèi)聚表達(dá)清晰的“需求”。**這種方式不僅可以壓縮短文本量級(jí)，還能更好的滿足用戶需求，幫助內(nèi)容提供方，提供更好的內(nèi)容。目前已經(jīng)輔助了百度UGC產(chǎn)品的內(nèi)容生產(chǎn)。

在這一節(jié)中，我們先介紹短文本聚類(lèi)問(wèn)題，并介紹常用聚類(lèi)算法，最后分析聚類(lèi)算法在搜索場(chǎng)景下的難點(diǎn)和挑戰(zhàn)。

1.1 短?本聚類(lèi)問(wèn)題

聚類(lèi)是一種常用的無(wú)監(jiān)督算法，按照某個(gè)距離度量方式把一個(gè)數(shù)據(jù)集分割成不同的類(lèi)或簇，使得同一個(gè)簇內(nèi)的數(shù)據(jù)對(duì)象的相似性盡可能大，同時(shí)不在同一個(gè)簇中的數(shù)據(jù)對(duì)象的差異性也盡可能地大。

一般來(lái)說(shuō)，搜索query以短文本為主。從大量的短文本中，盡可能地將含義一致的所有文本，聚合在一起，形成一個(gè)**“需求簇”**，就是短文本聚類(lèi)問(wèn)題。

舉例來(lái)說(shuō)： 短?本聚類(lèi)的問(wèn)題有哪些

其中，query="?機(jī)碎屏了怎么辦？" 和query=“求助，?機(jī)屏幕摔碎了”是相同的需求，可以聚合成為?個(gè)簇；query="???什么意思"，query="?抬頭什么意思" 和query="?抬頭有什么典故"是相同的需求，可以聚合成為?個(gè)簇。

可以看出，搜索query場(chǎng)景下的短?本聚類(lèi)問(wèn)題，和常規(guī)聚類(lèi)問(wèn)題，有?個(gè)明顯的區(qū)別：**“簇”的內(nèi)涵相對(duì)集中，**也就是說(shuō)，聚合完成后，簇的量級(jí)相對(duì)較?，同?個(gè)簇內(nèi)的數(shù)據(jù)，距離較近。

1.2 常?算法和框架

simhash

在?本聚類(lèi)領(lǐng)域，simhash是?種常?的局部敏感哈希算法，常常被?來(lái)作為搜索引擎中的??去重算法。它?圖以較?的概率，將相似的?檔映射為相同的哈希值，從?起到聚類(lèi)（去重）的?的。

simhash算法?般會(huì)將?檔進(jìn)?分詞處理，并給出每個(gè)詞的權(quán)重，再為每個(gè)詞計(jì)算?個(gè)哈希值，將所有詞的哈希值加權(quán)對(duì)位求和后，再采?對(duì)位?值化降維，產(chǎn)出最終?檔的哈希值。過(guò)程中使?了詞的重要性加權(quán)，所以重要的詞對(duì)最終?檔哈希值的影響會(huì)更?，?不重要的詞，對(duì)最終?檔哈希值的影響就會(huì)更?，從?相似的?檔，產(chǎn)?相同哈希值的可能性就會(huì)更?。

在??檔聚類(lèi)（去重）領(lǐng)域，simhash是?種?效的算法，但是，對(duì)短?本聚類(lèi)??，由于?本?度?幅度減少，simhash的有效性??降低了，不能保證產(chǎn)出結(jié)果的準(zhǔn)確性。

向量化聚類(lèi)

另?種常?的?本聚類(lèi)?式，?先會(huì)將?本向量化，再采?常規(guī)聚類(lèi)?法進(jìn)?聚類(lèi)。其中，?本向量化的?式很多，從早期的tf-idf，到?便快捷的word2vec，甚?是采?bert，ernie等預(yù)訓(xùn)練模型產(chǎn)出的?本向量，都可以作為?本的向量化表征。?般來(lái)說(shuō)，向量化?法會(huì)暗含分布式假設(shè)，產(chǎn)出的文本向量，可以在?定程度上解決同義詞的問(wèn)題。

聚類(lèi)的?式也多種多樣，例如常?的kmeans，層級(jí)化聚簇，single-pass等。特別需要注意的是，在設(shè)計(jì)聚類(lèi)算法的距離度量時(shí)，需要特別考慮向量化的?式，針對(duì)不同的向量化?式，設(shè)計(jì)不同的距離度量。

這類(lèi)算法存在三點(diǎn)問(wèn)題：

1、以kmeans為代表的聚類(lèi)算法，存在超參數(shù)“簇?cái)?shù)量”，只能借助經(jīng)驗(yàn)和輔助指標(biāo)進(jìn)?判定； 2、對(duì)短?本聚類(lèi)問(wèn)題，簇的數(shù)量往往特別?，會(huì)導(dǎo)致聚類(lèi)算法性能?chē)?yán)重下降； 3、聚類(lèi)結(jié)果準(zhǔn)確率受向量化和聚類(lèi)算法雙重影響，難以表達(dá)數(shù)據(jù)的細(xì)粒度差異。

其他算法和對(duì)?

盡管短?本聚類(lèi)算法，在業(yè)界具有較多應(yīng)?場(chǎng)景，但是在研究領(lǐng)域，它仍是?個(gè)相對(duì)?眾的分?，主要采?改進(jìn)?本向量化表示的?案，例如句?向量被設(shè)計(jì)成詞向量加權(quán)矩陣的第?主成分，??直接加權(quán)；例如采?聚簇引導(dǎo)的向量迭代的?式，改進(jìn)向量化表示，例如SIF+Aut。但不論是哪種改進(jìn)，都會(huì)增加較?的計(jì)算開(kāi)銷(xiāo)，在?業(yè)界并不現(xiàn)實(shí)。

短?本聚類(lèi)的問(wèn)題有哪些

1.3 ?規(guī)模短?本聚類(lèi)的難點(diǎn)

我們?對(duì)的問(wèn)題是?規(guī)模短?本聚類(lèi)，它還包含3個(gè)隱含的限制條件：

1、聚類(lèi)結(jié)果的準(zhǔn)確性要求?常嚴(yán)格； 2、短?本數(shù)量規(guī)模?常?； 3、數(shù)據(jù)產(chǎn)出時(shí)效要求高；

不難看出，常規(guī)算法在運(yùn)算效率和準(zhǔn)確性方面，很難同時(shí)滿足上述三個(gè)要求；而工業(yè)界并沒(méi)有成熟框架，可以解決這個(gè)問(wèn)題；學(xué)術(shù)界算法距離工業(yè)場(chǎng)景應(yīng)用還有一定距離；我們需要一種新的思路來(lái)解決問(wèn)題。

在設(shè)計(jì)算法時(shí)，需要重點(diǎn)考慮如下問(wèn)題：

1、數(shù)據(jù)量級(jí)?，系統(tǒng)吞吐高：搜索query的量級(jí)是不言而喻的，對(duì)于億級(jí)別數(shù)據(jù)，進(jìn)行高效計(jì)算，非?？简?yàn)算法設(shè)計(jì)能力和工程架構(gòu)能力；

2、聚類(lèi)算法準(zhǔn)確率要求高：首先，聚類(lèi)算法是無(wú)監(jiān)督算法，采用向量空間上的距離度量，衡量聚類(lèi)結(jié)果的聚集程度，本質(zhì)上并沒(méi)有準(zhǔn)確率的概念；但是，在搜索query場(chǎng)景下，聚類(lèi)算法就有了明確的衡量指標(biāo)：通過(guò)統(tǒng)一的文本相似性評(píng)估標(biāo)準(zhǔn)，可以后驗(yàn)評(píng)估出在同一個(gè)簇中，結(jié)果是否相似，在不同的簇中，數(shù)據(jù)是否不相似，從而可以衡量出聚類(lèi)準(zhǔn)確率。這為短文本聚類(lèi)算法戴上了“緊箍咒”：并不是任意聚類(lèi)算法都適用，需要考慮和文本相似度結(jié)合更緊密的聚類(lèi)算法。

“結(jié)合更緊密”是從向量空間中距離的定義來(lái)考慮的，例如，由相似度模型給出的相似度度量，并不一定是向量空間上“距離”。具體來(lái)說(shuō)，向量空間上的一個(gè)定義良好的“距離”，需要滿足三角不等式：distance(A,B)+distance(B,C)>=distance(A,C), 但是，對(duì)于相似度，similarity(A,B)+similarity(B,C)與similarity(A,C)并不一定有穩(wěn)定的數(shù)量關(guān)系。因此，不能直接使用聚類(lèi)模型，只能將相似度作為“場(chǎng)外指導(dǎo)”，實(shí)現(xiàn)相似度指導(dǎo)下的聚類(lèi)算法。這導(dǎo)致一般的聚類(lèi)算法不能直接用于短文本聚類(lèi)。

3、文本相似度要求精度高，耗時(shí)短：文本相似度是一個(gè)場(chǎng)景依賴(lài)問(wèn)題，對(duì)于同樣的query對(duì)，在不同的場(chǎng)景下，可能有截然不同的判定結(jié)果。在搜索場(chǎng)景下，對(duì)相似度的精度要求非常高，往往一字之差，就是完全不同的需求，因此模型需要能夠精確捕獲文本的細(xì)粒度差異；另一方面，希望盡可能地將相同需求的query聚合成為一個(gè)簇，減少漏召回的情況；也就是說(shuō)，**對(duì)于短文本聚類(lèi)問(wèn)題，對(duì)文本相似度的準(zhǔn)確率和召回率都有很高要求；**除此之外，為了適應(yīng)大規(guī)模的調(diào)用，文本相似度服務(wù)需要具有響應(yīng)時(shí)長(zhǎng)短、易擴(kuò)展等特點(diǎn)。

4、文本表征復(fù)雜：文本表征指的是通過(guò)某種方式將文本轉(zhuǎn)化為語(yǔ)義向量，用于后續(xù)文本聚類(lèi)。文本向量的產(chǎn)出方式多種多樣，例如在simhash中，采用加權(quán)hash函數(shù)表達(dá)文本信息；還可以用word2vec詞向量加權(quán)產(chǎn)生文本的向量信息。除此之外，短文本的類(lèi)別，關(guān)鍵詞等信息，也是文本表征的重要組成部分；在文本向量化時(shí)，需要重點(diǎn)考慮如何在向量空間中體現(xiàn)相似度。文本表征是一項(xiàng)重要且基礎(chǔ)的算法，選擇不同的文本表征，決定了不同的相似度度量方式，直接影響聚類(lèi)模型選型，間接影響最終結(jié)果。

5、誤差的發(fā)現(xiàn)和修復(fù)：從文本表征到文本相似度，再到聚類(lèi)算法，每一步都會(huì)積累誤差，從而影響最終結(jié)果。對(duì)于大規(guī)模文本聚類(lèi)，這個(gè)問(wèn)題尤為明顯，也是容易被忽略的環(huán)節(jié)。

1.4 ?規(guī)模短?本聚類(lèi)的總體思路

考慮到以上難點(diǎn)，我們采?了多級(jí)拆分，逐個(gè)擊破的總體思路。

短?本聚類(lèi)的問(wèn)題有哪些

圖1：?規(guī)模短?本聚類(lèi)的總體思路

1.我們先將?規(guī)模短?本，進(jìn)?多級(jí)拆分，基本保證相同含義的query，?概率進(jìn)?同?個(gè)分桶中：

1.1?級(jí)拆分：需要保證拆分項(xiàng)在語(yǔ)義層?，含義互斥，也就是相同含義的query，必須進(jìn)?相同的桶中；

1.2?級(jí)拆分：?級(jí)拆分后，每個(gè)桶內(nèi)的query量級(jí)依然很?，還需要進(jìn)??級(jí)拆分，保證后續(xù)計(jì)算量級(jí)可控；

2.對(duì)同?個(gè)桶內(nèi)的query進(jìn)?精細(xì)化語(yǔ)義聚合，將含義相同的query，合并為?個(gè)簇；

3.對(duì)于同?個(gè)?級(jí)分桶中的語(yǔ)義簇，進(jìn)?誤差校驗(yàn)，將需要合并的簇合并；

說(shuō)明：

1.為什么要拆分？假設(shè)我們的query數(shù)量量級(jí)為短?本聚類(lèi)的問(wèn)題有哪些，那么最差情況下，我們需要進(jìn)?次相似度計(jì)算，才能完成?本聚類(lèi)；然?，如果我們將數(shù)據(jù)進(jìn)?拆分，并且以較?的概率保證拆分互斥，，那么只需要進(jìn)?次相似度計(jì)算，量級(jí)是遠(yuǎn)?于的短?本聚類(lèi)的問(wèn)題有哪些；

2.為什么需要多級(jí)拆分？如果把原始數(shù)據(jù)平級(jí)拆分的較細(xì)，就會(huì)降低相似度調(diào)用次數(shù)；但是平級(jí)拆分的越細(xì)，就越不能保證語(yǔ)義互斥，這會(huì)導(dǎo)致需要進(jìn)行誤差校驗(yàn)的數(shù)量激增；如果我們采用多級(jí)拆分，保證頂部拆分的準(zhǔn)確率，就會(huì)減少誤差校驗(yàn)的數(shù)據(jù)量；

3.如何進(jìn)?語(yǔ)義聚簇？數(shù)據(jù)拆分后，需要在每個(gè)桶內(nèi)，進(jìn)??本聚類(lèi)，這也是整個(gè)?案最核?的地?；?前，有三種辦法可以解決：

3.1 基于?本字?的檢索聚類(lèi)：雖然分到同?個(gè)桶中的數(shù)據(jù)量已經(jīng)??減少了，但是如果兩兩進(jìn)?相似度計(jì)算，數(shù)據(jù)量級(jí)依然很?；我們發(fā)現(xiàn)，常規(guī)的關(guān)鍵詞搜索，可以保證召回?部分相似的query，只需要為召回的query計(jì)算相關(guān)性即可。

3.2 基于?本表征的聚類(lèi):雖然通過(guò)關(guān)鍵詞搜索，可以覆蓋?部分的相似query，但是召回并不全，為了解決同義問(wèn)題、句式變換等導(dǎo)致的關(guān)鍵詞召回不全的問(wèn)題，我們使用了基于文本表征的召回方式：將向量化后的query，進(jìn)行細(xì)粒度的聚類(lèi)，只需要對(duì)同一類(lèi)中的query計(jì)算相似度即可；

3.3 基于?本表征的檢索聚類(lèi)：考慮細(xì)粒度的聚類(lèi)算法控制力較弱，還可以引入向量檢索，通過(guò)文本向量召回的方式，解決召回不全的問(wèn)題。

有效性分析

1. 解決了數(shù)據(jù)量級(jí)大，要求耗時(shí)短的問(wèn)題：當(dāng)前流程可以通過(guò)將數(shù)據(jù)進(jìn)行二級(jí)拆分，可以把大規(guī)模數(shù)據(jù)，拆分為較小的數(shù)據(jù)塊，分配給不同的計(jì)算單元進(jìn)行計(jì)算，從而減少耗時(shí)；我們進(jìn)行過(guò)估計(jì)，在1億數(shù)據(jù)上，傳統(tǒng)兩兩對(duì)比的方式，計(jì)算需要耗時(shí)58年；而采用分層的方式，只需要4天；雖然采用分級(jí)向量化聚簇（無(wú)相似度）的方式，可以將耗時(shí)降低為2天，但是準(zhǔn)確率和召回率較低；

2. 優(yōu)化相似度，提高相似度服務(wù)計(jì)算性能：我們對(duì)短文本相似度進(jìn)行了定制性?xún)?yōu)化，多實(shí)例部署，相似度服務(wù)的吞吐能力得到了100倍的提升；

3. 聚類(lèi)算法準(zhǔn)確率高：引入誤差修正機(jī)制，整體短文本聚類(lèi)算法準(zhǔn)確率從93%提升到了95%，召回率從71%提升到了80%；

基于以上分析，對(duì)計(jì)算性能和計(jì)算效果進(jìn)行折中，我們采用了分級(jí)向量化聚簇+優(yōu)化后的相似度作為最后的方案；

短?本聚類(lèi)的問(wèn)題有哪些

2、?規(guī)模短?本聚類(lèi)算法的演進(jìn)和思考

以上是我們經(jīng)過(guò)?段時(shí)間的探索后，總結(jié)出的?規(guī)模短?本聚類(lèi)問(wèn)題的解決?案。在過(guò)程中，我們進(jìn)?了兩個(gè)?版本的迭代。

2.1 v1.0：明確拆分的思路

在解決這個(gè)問(wèn)題的初期，我們面對(duì)兩種技術(shù)方案：一種是探索適合短文本的表征，將問(wèn)題轉(zhuǎn)化為特殊的向量聚類(lèi)的問(wèn)題，例如simhash；另一種是將數(shù)據(jù)集合進(jìn)行拆分，減少數(shù)據(jù)規(guī)模，加速相似度計(jì)算，解決聚類(lèi)問(wèn)題；經(jīng)過(guò)分析后，我們認(rèn)為方案一，在選擇合適的文本表征上，沒(méi)有可以指導(dǎo)優(yōu)化方向的中間指標(biāo)，很難迭代優(yōu)化，因此，明確了將數(shù)據(jù)集合進(jìn)行拆分的思路。

首先，我們根據(jù)query的分類(lèi)和其他業(yè)務(wù)要求，將query進(jìn)行一級(jí)拆分，保證拆分結(jié)果語(yǔ)義互斥；

第二步，進(jìn)行二級(jí)拆分：為了保證二級(jí)拆分后的同一個(gè)桶內(nèi)，數(shù)據(jù)量級(jí)適中，便于進(jìn)行精細(xì)化語(yǔ)義聚合，我們采用了層級(jí)化分桶的方式：

1. 對(duì)query計(jì)算高級(jí)語(yǔ)義特征，并進(jìn)行二值化操作，產(chǎn)出一個(gè)256維度的由0、1組成的向量

2. 首先取前50維向量，進(jìn)行hash粗聚；如果簇內(nèi)的數(shù)量超過(guò)一定數(shù)量，則對(duì)其中的query，擴(kuò)展維度到100維，重新進(jìn)行hash粗聚，直到維數(shù)達(dá)到256或者簇內(nèi)數(shù)量少于一定數(shù)量

第三步，對(duì)每一個(gè)桶內(nèi)的query，進(jìn)行精細(xì)化語(yǔ)義聚合，將含義相似的query，合并為一個(gè)簇中。

v1.0 的優(yōu)缺點(diǎn)分析

我們可以看出，由于采用了數(shù)據(jù)拆分的思路，將數(shù)據(jù)分桶后，進(jìn)行精細(xì)化語(yǔ)義聚類(lèi)時(shí)，每個(gè)分桶之間的數(shù)據(jù)語(yǔ)義互斥，只需要在每個(gè)桶內(nèi)進(jìn)行語(yǔ)義聚合，就可以產(chǎn)出數(shù)據(jù)了。這種方式便于并行化計(jì)算，對(duì)縮短計(jì)算耗時(shí)有很大貢獻(xiàn)。

在過(guò)程中，我們也發(fā)現(xiàn)，一些需要改進(jìn)的地方：

1. 聚類(lèi)結(jié)果的準(zhǔn)確性強(qiáng)依賴(lài)于相似度模型，并且是細(xì)粒度相似度模型，如果使用粗粒度相似度模型，會(huì)導(dǎo)致誤召回，因此需要一套可以區(qū)分細(xì)粒度相似程度的模型。

2. 使用層級(jí)化分桶進(jìn)行二級(jí)拆分，并不一定能保證語(yǔ)義相似的數(shù)據(jù)進(jìn)入一個(gè)桶中，層次化拆分使用的query向量表征，暗含了向量在語(yǔ)義表達(dá)上，具有隨維度增加逐漸細(xì)化的特點(diǎn)，但是在產(chǎn)出query向量表征的過(guò)程中，并沒(méi)有施加此導(dǎo)向，不能保證這個(gè)假設(shè)成立；在v2.0中我們改動(dòng)了二級(jí)拆分的方式，克服了這個(gè)缺陷；

3. 缺少誤差發(fā)現(xiàn)和修正機(jī)制：不論相似度準(zhǔn)確率有多高，不論短文本的分類(lèi)有多準(zhǔn)，都會(huì)有誤差；我們需要有機(jī)制可以發(fā)現(xiàn)和修正誤差。

2.2 v2.0：引?細(xì)粒度相似度

針對(duì)v1.0 發(fā)現(xiàn)的問(wèn)題，我們做了三點(diǎn)改動(dòng)：

引入細(xì)粒度相似度

短文本文本聚類(lèi)的一個(gè)典型使用場(chǎng)景，是對(duì)搜索query進(jìn)行語(yǔ)義級(jí)別的合并，將相同需求不同表達(dá)的query，合并為一個(gè)“需求”，因此對(duì)于相似query的認(rèn)定，標(biāo)準(zhǔn)是較為嚴(yán)格的。已有的相似度模型，已經(jīng)不能適用了。經(jīng)過(guò)對(duì)query的詳細(xì)分析，我們發(fā)現(xiàn)句法分析，短語(yǔ)搭配等特征，能夠?qū)μ嵘嗨贫饶Ｐ偷臏?zhǔn)確率和召回率有較大幫助，因此，我們自研了一套融合了句法分析，短語(yǔ)搭配和其他特征的相似度模型，取得了較好的收益。

在二級(jí)拆分中引入聚類(lèi)模型

在v1.0 版本中，層次化分桶的準(zhǔn)確率得不到保證，需要有一個(gè)更準(zhǔn)確的二級(jí)拆分方式，達(dá)到數(shù)據(jù)分桶的目的。二級(jí)拆分只需要保證相似的短文本，大概率被分到同一個(gè)桶中，并不要求桶內(nèi)任意兩個(gè)短文本都是相似的，這樣的設(shè)置非常適合采用向量化后聚類(lèi)方法解決問(wèn)題。一方面考慮到預(yù)訓(xùn)練模型的性能問(wèn)題，我們采用了傳統(tǒng)詞向量加權(quán)的方式，產(chǎn)出短文本的詞向量；通過(guò)kmeans聚類(lèi)的方式，對(duì)一級(jí)桶的短文本進(jìn)行聚類(lèi)操作，從而保證了二級(jí)拆分的準(zhǔn)確率。

這里可能會(huì)有疑問(wèn)，為什么不使用向量召回的方式解決問(wèn)題？其實(shí)，向量召回的本質(zhì)是向量聚類(lèi)，再輔以高效的向量查找，達(dá)到向量召回的目的。在二級(jí)拆分中，不需要進(jìn)行向量查找，而且如果引入會(huì)增加額外的時(shí)間開(kāi)銷(xiāo)，因此我們并沒(méi)有使用向量召回。

誤差修正

在v1.0版本中，誤差逐層累計(jì)且沒(méi)有得到修正，為了克服這一點(diǎn)，我們?cè)诋a(chǎn)出的最后一步，引入了誤差修正操作。

主要存在兩種形式的誤差: 一種是聚類(lèi)不全，應(yīng)該聚合在一起的數(shù)據(jù)，沒(méi)有聚合在一起，這類(lèi)誤差主要是由于多級(jí)拆分引起的，通過(guò)跨越層級(jí)的校驗(yàn)，可以解決這個(gè)問(wèn)題；另一種誤差是聚類(lèi)不準(zhǔn)，主要是由于相似度計(jì)算導(dǎo)致的。我們重點(diǎn)解決聚類(lèi)不全的問(wèn)題。

為了減少需要校驗(yàn)的數(shù)據(jù)量級(jí)，我們將誤差檢驗(yàn)的范圍，限制在二級(jí)分桶內(nèi)部。在二級(jí)分桶后，我們首先采用精細(xì)化語(yǔ)義聚合的方式，得到聚類(lèi)結(jié)果。對(duì)處于同一個(gè)二級(jí)桶內(nèi)的聚類(lèi)中心，驗(yàn)證其相關(guān)性。如果相關(guān)性較高，則進(jìn)一步驗(yàn)證后合并。

v2.0 的效果

v2.0上線后，能夠在很短的時(shí)間內(nèi)處理完成大規(guī)模短文本的精細(xì)化聚類(lèi)，聚類(lèi)準(zhǔn)確率達(dá)到95%，召回率達(dá)到80%，已經(jīng)服務(wù)于百度UGC業(yè)務(wù)線的內(nèi)容生產(chǎn)。

持續(xù)優(yōu)化

v2.0版本基本實(shí)現(xiàn)了大規(guī)模短文本精細(xì)化聚類(lèi)的功能，但是仍有很多改動(dòng)空間。例如聚類(lèi)結(jié)果的持久化，重復(fù)計(jì)算問(wèn)題，更高效的聚合算法等，后續(xù)我們也會(huì)持續(xù)優(yōu)化，提供更高效穩(wěn)定的算法支持。

“短?本聚類(lèi)的問(wèn)題有哪些”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站，小編將為大家輸出更多高質(zhì)量的實(shí)用文章！

向AI問(wèn)一下細(xì)節(jié)

短?本聚類(lèi)的問(wèn)題有哪些

一、背景和問(wèn)題介紹

1.1 短?本聚類(lèi)問(wèn)題

1.2 常?算法和框架

simhash

向量化聚類(lèi)

其他算法和對(duì)?

1.3 ?規(guī)模短?本聚類(lèi)的難點(diǎn)

1.4 ?規(guī)模短?本聚類(lèi)的總體思路

有效性分析

2、?規(guī)模短?本聚類(lèi)算法的演進(jìn)和思考

2.1 v1.0：明確拆分的思路

v1.0 的優(yōu)缺點(diǎn)分析

2.2 v2.0：引?細(xì)粒度相似度

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽

一、背景和問(wèn)題介紹

2、?規(guī)模短?本聚類(lèi)算法的演進(jìn)和思考