您好,登錄后才能下訂單哦!
關(guān)于LDA主題模型,一度是NLP領(lǐng)域一個(gè)非常火的模型,后來(lái)深度學(xué)習(xí)大放異彩,它的熱度才慢慢降了下來(lái)。
由于數(shù)學(xué)基礎(chǔ)很差,一直沒(méi)有理解LDA的整個(gè)核心。到目前為止,也只是理解了皮毛。記錄一下關(guān)于LDA主題模型相關(guān)的學(xué)習(xí)資料。
LDA主題模型屬于編碼簡(jiǎn)單,但是數(shù)學(xué)功底要求較高的一個(gè)機(jī)器學(xué)習(xí)模型,在搜索引擎和廣告領(lǐng)域有用到。按照《LDA 數(shù)學(xué)八卦》作者靳志輝老師的說(shuō)法,是一個(gè)比較簡(jiǎn)單的模型,前提是需要數(shù)學(xué)功底扎實(shí)。如果統(tǒng)計(jì)學(xué)基礎(chǔ)扎實(shí),理解LDA主題模型基本是一馬平川。
理解LDA主題模型,其實(shí)包含4大塊的內(nèi)容: 微積分基礎(chǔ),概率論與數(shù)理統(tǒng)計(jì)基礎(chǔ), 隨機(jī)模擬算法, 文本建模思路。LDA數(shù)學(xué)八卦講解的思路就是微積分-分布函數(shù)-隨機(jī)模擬-文本建模這條主線的。個(gè)人認(rèn)為,如果數(shù)學(xué)基礎(chǔ)比較差的話,光靠《LDA數(shù)學(xué)八卦》是很難理解清楚LDA主題模型的。出于彌補(bǔ)數(shù)學(xué)短板的目的,也是出于興趣,我前后看了一些書(shū)。如下的書(shū)籍我覺(jué)得還是不錯(cuò)的。
《普林斯頓微積分讀本》 這本書(shū)從高中數(shù)學(xué)的基本函數(shù)開(kāi)始,到微積分的各種技巧。講解細(xì)致,學(xué)習(xí)曲線平緩。
如果這本書(shū)覺(jué)得枯燥,可以配合如下的4本科普入門(mén)。
《數(shù)學(xué)悖論與三次數(shù)學(xué)危機(jī)》
《天才引導(dǎo)的歷程:數(shù)學(xué)中的偉大定理》
《微積分的歷程:從牛頓到勒貝格》
《簡(jiǎn)單微積分 : 學(xué)校未教過(guò)的超簡(jiǎn)易入門(mén)技巧》
這幾本書(shū)下來(lái),不敢說(shuō)理解微積分了,至少看到微積分的那個(gè)求和符號(hào)會(huì)感覺(jué)親切很多。
關(guān)于數(shù)理統(tǒng)計(jì),有幾個(gè)個(gè)人名不得不提: 陳希儒,吳喜之,茆詩(shī)松。
《機(jī)會(huì)的數(shù)學(xué)》
《數(shù)理統(tǒng)計(jì)學(xué)簡(jiǎn)史》
上面兩本是科普層面的書(shū),簡(jiǎn)史中數(shù)學(xué)推導(dǎo)有點(diǎn)難,但是不妨礙理解整個(gè)主線條。接下來(lái)就是比較硬的專(zhuān)業(yè)書(shū)籍了。
《概率論與數(shù)理統(tǒng)計(jì)教程》(茆詩(shī)松)
《概率論與數(shù)理統(tǒng)計(jì)》(陳希孺)
《數(shù)理統(tǒng)計(jì)學(xué)教程》(陳希孺)
《貝葉斯統(tǒng)計(jì)》(茆詩(shī)松)
這里面能看懂多少是多少吧,我到現(xiàn)在也只能理解很少的一部分。到這里,就到了LDA數(shù)學(xué)八卦里面提到的數(shù)學(xué)不超出《概率論與數(shù)理統(tǒng)計(jì)》這本書(shū)的層級(jí)了。其實(shí),陳院士的這本書(shū)難度還是頗大的,畢竟立足點(diǎn)高遠(yuǎn)。就像《高觀點(diǎn)下的初等數(shù)學(xué)》那樣,盡管講解的是初等數(shù)學(xué),但是無(wú)奈站的太高,只能仰望。 吳喜之教授的幾本書(shū),在豆瓣上評(píng)價(jià)也挺不錯(cuò)的,可以搭配著看。
其實(shí)隨機(jī)模擬是比較簡(jiǎn)單的。這里推薦一本講隨機(jī)模擬的書(shū),盡管里面沒(méi)有講Gibbs算法。我是看了這本書(shū),才理解了MCMC算法的基本思路的。個(gè)人覺(jué)得對(duì)于理解MCMC算法非常有幫助。
《隨機(jī)模擬方法與應(yīng)用》
看完這本書(shū)的幾個(gè)章節(jié)估計(jì)就能理解清楚MCMC算法的來(lái)龍去脈了。 幾乎沒(méi)有書(shū)籍專(zhuān)門(mén)講解MCMC是因?yàn)樗膬?nèi)容基本不足以支撐一本書(shū)。
《統(tǒng)計(jì)模擬》在豆瓣的評(píng)價(jià)也不錯(cuò),應(yīng)該可以搭配著看。
我理解文本建模就是數(shù)學(xué)建模。各種降低現(xiàn)實(shí)問(wèn)題復(fù)雜度的假設(shè),比如詞袋模型。其實(shí)有了前面的數(shù)學(xué)基礎(chǔ),這里應(yīng)該是不需要看什么書(shū)來(lái)幫助理解的。如果一定要看一下的話,吳軍老師的《數(shù)學(xué)之美》我覺(jué)得應(yīng)該不錯(cuò)。再或者,看一下《統(tǒng)計(jì)自然語(yǔ)言處理基礎(chǔ)》。
個(gè)人覺(jué)得,看書(shū)沒(méi)必要嚴(yán)格按照一定的先后順序,相互印證,配合理解才是王道。
整個(gè)路徑梳理下來(lái),感覺(jué)對(duì)于機(jī)器學(xué)習(xí)的模型,最關(guān)鍵的還是數(shù)學(xué)功底。去年看了一些數(shù)學(xué)類(lèi)的書(shū)籍,感覺(jué)數(shù)學(xué)還是相當(dāng)有意思的,關(guān)鍵在于選擇合適自己當(dāng)前水平的書(shū),才能不至于因?yàn)殡y度太大而喪失探索的興趣和欲望。 李健老師說(shuō)"重復(fù)也是一種力量", 路慢慢其修遠(yuǎn)兮,呵護(hù)培養(yǎng)著興趣,且行且珍惜吧。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。