溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

機(jī)器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解

發(fā)布時(shí)間:2021-12-27 14:10:52 來源:億速云 閱讀:222 作者:iii 欄目:大數(shù)據(jù)

本篇內(nèi)容主要講解“機(jī)器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實(shí)用性強(qiáng)。下面就讓小編來帶大家學(xué)習(xí)“機(jī)器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解”吧!

示例

我將用一個(gè)流行的例子來解釋本文中的Bag of Words(BoW)和TF-IDF。

我們都喜歡看電影(不同程度)。在我決定看一部電影之前,我總是先看它的影評(píng)。我知道你們很多人也這么做!所以,我在這里用這個(gè)例子。

以下是關(guān)于某部恐怖電影的評(píng)論示例:

  • 點(diǎn)評(píng)一:This movie is very scary and long

  • 點(diǎn)評(píng)二:This movie is not scary and is slow

  • 點(diǎn)評(píng)三:This movie is spooky and good

你可以看到關(guān)于這部電影的一些對(duì)比評(píng)論,以及電影的長度和節(jié)奏。想象一下看一千篇這樣的評(píng)論是多么枯燥。顯然,我們可以從中汲取很多有趣的東西,并以此為基礎(chǔ)來衡量電影的表現(xiàn)。

然而,正如我們?cè)谏厦婵吹降?,我們不能簡單地把這些句子交給機(jī)器學(xué)習(xí)模型,讓它告訴我們一篇評(píng)論是正面的還是負(fù)面的。我們需要執(zhí)行某些文本預(yù)處理步驟。

“詞袋”和TF-IDF就是兩個(gè)這樣做的例子。讓我們?cè)敿?xì)了解一下。

從文本創(chuàng)建向量

你能想出一些我們可以在一開始就把一個(gè)句子向量化的技巧嗎?基本要求是:

  • 它不應(yīng)該導(dǎo)致稀疏矩陣,因?yàn)橄∈杈仃嚂?huì)導(dǎo)致高計(jì)算成本

  • 我們應(yīng)該能夠保留句子中的大部分語言信息

詞嵌入是一種利用向量表示文本的技術(shù)。還有2種單詞嵌入形式是:

  1. Bow,代表詞袋

  2. TF-IDF,代表詞頻-逆文本頻率

現(xiàn)在,讓我們看看如何將上述電影評(píng)論表示為嵌入,并為機(jī)器學(xué)習(xí)模型做好準(zhǔn)備。

詞袋(BoW)模型

詞袋(BoW)模型是數(shù)字文本表示的最簡單形式。像單詞本身一樣,我們可以將一個(gè)句子表示為一個(gè)詞向量包(一個(gè)數(shù)字串)。

讓我們回顧一下我們之前看到的三種類型的電影評(píng)論:

  • 點(diǎn)評(píng)一:This movie is very scary and long

  • 點(diǎn)評(píng)二:This movie is not scary and is slow

  • 點(diǎn)評(píng)三:This movie is spooky and good

我們將首先從以上三篇評(píng)論中所有的獨(dú)特詞匯中構(gòu)建一個(gè)詞匯表。詞匯表由這11個(gè)單詞組成:“This”、“movie”、“is”、“very”、“stear”、“and”、“l(fā)ong”、“not”、“slow”、“spooky”、“good”。

現(xiàn)在,我們可以將這些單詞中的每一個(gè)用1和0標(biāo)記在上面的三個(gè)電影評(píng)論中。這將為我們提供三個(gè)用于三個(gè)評(píng)論的向量:

機(jī)器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解

點(diǎn)評(píng)向量1:[1 1 1 1 1 1 0 0 0 0]

點(diǎn)評(píng)向量2:[1 1 2 0 0 1 0 1 0 0 0]

點(diǎn)評(píng)向量3:[1 1 1 0 0 0 1 0 1 1 1 1]

這就是“詞袋”(BoW)模型背后的核心思想。

使用單詞包(BoW)模型的缺點(diǎn)

在上面的例子中,我們可以得到長度為11的向量。然而,當(dāng)我們遇到新的句子時(shí),我們開始面臨一些問題:

  1. 如果新句子包含新詞,那么我們的詞匯量就會(huì)增加,因此向量的長度也會(huì)增加。

  2. 此外,向量還包含許多0,從而產(chǎn)生稀疏矩陣(這是我們希望避免的)

  3. 我們沒有保留任何關(guān)于句子語法和文本中單詞順序的信息。

詞頻-逆文本頻率(TF-IDF)

我們先對(duì)TF-IDF下一個(gè)正式定義。百科是這樣說的:

“TF-IDF(term frequency–inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF是詞頻(Term Frequency),IDF是逆文本頻率指數(shù)(Inverse Document Frequency)”

術(shù)語頻率(TF)

首先讓我們理解術(shù)語頻繁(TF)。它是衡量一個(gè)術(shù)語t在文檔d中出現(xiàn)的頻率:

機(jī)器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解

這里,在分子中,n是術(shù)語“t”出現(xiàn)在文檔“d”中的次數(shù)。因此,每個(gè)文檔和術(shù)語都有自己的TF值。

我們?cè)俅问褂梦覀冊(cè)谠~袋模型中構(gòu)建的相同詞匯表來演示如何計(jì)算電影點(diǎn)評(píng)2:

點(diǎn)評(píng) 2: This movie is not scary and is slow

這里

  • 詞匯:“This”,“movie”,“is”,“very”,“stear”,“and”,“l(fā)ong”,“not”,“slow”,“spooky”,“good”

  • 點(diǎn)評(píng)2的單詞數(shù)=8

  • 單詞“this”的TF=(點(diǎn)評(píng)2中出現(xiàn)“this”的次數(shù))/(點(diǎn)評(píng)2中的單詞數(shù))=1/8

同樣地

  • TF(‘movie’) = 1/8

  • TF(‘is’) = 2/8 = 1/4

  • TF(‘very’) = 0/8 = 0

  • TF(‘scary’) = 1/8

  • TF(‘a(chǎn)nd’) = 1/8

  • TF(‘long’) = 0/8 = 0

  • TF(‘not’) = 1/8

  • TF(‘slow’) = 1/8

  • TF( ‘spooky’) = 0/8 = 0

  • TF(‘good’) = 0/8 = 0

我們可以這樣計(jì)算所有點(diǎn)評(píng)的詞頻:

機(jī)器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解

逆文本頻率(IDF)

IDF是衡量一個(gè)術(shù)語有多重要的指標(biāo)。我們需要IDF值,因?yàn)閮H計(jì)算TF不足以理解單詞的重要性:

機(jī)器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解

我們可以計(jì)算點(diǎn)評(píng)2中所有單詞的IDF值:

IDF('this')=log(文檔數(shù)/包含“this”一詞的文檔數(shù))=log(3/3)=log(1)=0

同樣地,

  • IDF(‘movie’, ) = log(3/3) = 0

  • IDF(‘is’) = log(3/3) = 0

  • IDF(‘not’) = log(3/1) = log(3) = 0.48

  • IDF(‘scary’) = log(3/2) = 0.18

  • IDF(‘a(chǎn)nd’) = log(3/3) = 0

  • IDF(‘slow’) = log(3/1) = 0.48

我們可以計(jì)算每個(gè)單詞的IDF值。因此,整個(gè)詞匯表的IDF值為:

機(jī)器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解

因此,我們看到“is”、“this”、“and”等詞被降為0,代表重要性很??;而“scary”、“l(fā)ong”、“good”等詞則更為重要,因而具有更高的權(quán)值。

我們現(xiàn)在可以計(jì)算語料庫中每個(gè)單詞的TF-IDF分?jǐn)?shù)。分?jǐn)?shù)越高的單詞越重要,分?jǐn)?shù)越低的單詞越不重要:

機(jī)器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解

現(xiàn)在,我們可以計(jì)算點(diǎn)評(píng)2中每個(gè)單詞的TF-IDF分?jǐn)?shù):

TF-IDF(‘this’, Review 2) = TF(‘this’, Review 2) * IDF(‘this’) = 1/8 * 0 = 0

同樣地

  • TF-IDF(‘movie’, Review 2) = 1/8 * 0 = 0

  • TF-IDF(‘is’, Review 2) = 1/4 * 0 = 0

  • TF-IDF(‘not’, Review 2) = 1/8 * 0.48 = 0.06

  • TF-IDF(‘scary’, Review 2) = 1/8 * 0.18 = 0.023

  • TF-IDF(‘a(chǎn)nd’, Review 2) = 1/8 * 0 = 0

  • TF-IDF(‘slow’, Review 2) = 1/8 * 0.48 = 0.06

同樣地,我們可以計(jì)算出對(duì)于所有評(píng)論的所有單詞的TF-IDF分?jǐn)?shù):

機(jī)器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解

我們現(xiàn)在已經(jīng)獲得了我們?cè)~匯的TF-IDF分?jǐn)?shù)。TF-IDF還為頻率較低的單詞提供較大的值,并且當(dāng)IDF和TF值都較高時(shí),該值較高。TF-IDF分值高代表該單詞在所有文檔中都很少見,但在單個(gè)文檔中很常見。

到此,相信大家對(duì)“機(jī)器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解”有了更深的了解,不妨來實(shí)際操作一番吧!這里是億速云網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI