您好,登錄后才能下訂單哦!
這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)碛嘘P(guān)Python如何學(xué)習(xí)NLP自然語言處理基本操作詞袋模型,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
從今天開始我們將開啟一段自然語言處理 (NLP) 的旅程. 自然語言處理可以讓來處理, 理解, 以及運(yùn)用人類的語言, 實(shí)現(xiàn)機(jī)器語言和人類語言之間的溝通橋梁.
詞袋模型 (Bag of Words Model) 能幫助我們把一個(gè)句子轉(zhuǎn)換為向量表示. 詞袋模型把文本看作是無序的詞匯集合, 把每一單詞都進(jìn)行統(tǒng)計(jì).
詞袋模型首先會(huì)進(jìn)行分詞, 在分詞之后. 通過通過統(tǒng)計(jì)在每個(gè)詞在文本中出現(xiàn)的次數(shù). 我們就可以得到該文本基于詞語的特征, 如果將各個(gè)文本樣本的這些詞與對(duì)應(yīng)的詞頻放在一起, 就是我們常說的向量化.
例子:
import jieba from gensim import corpora # 定義標(biāo)點(diǎn)符號(hào) punctuation = [",", "。", ":", ";", "?", "!"] # 定義語料 content = [ "今天天氣真不錯(cuò)!", "明天要下雨?", "后天要打雷。" ] # 分詞 seg = [jieba.lcut(con) for con in content] print("語料:", seg) # 去除標(biāo)點(diǎn)符號(hào) tokenized = seg.copy() for s in tokenized: for p in punctuation: if p in s: s.remove(p) print("去除標(biāo)點(diǎn):", tokenized) # tokenized是去標(biāo)點(diǎn)之后的 dictionary = corpora.Dictionary(seg) print("詞袋模型:", dictionary) # 保存詞典 dictionary.save('deerwester.dict') # 查看字典和下標(biāo)id的映射 print("編號(hào):", dictionary.token2id)
輸出結(jié)果:
Building prefix dict from the default dictionary ... Loading model from cache C:\Users\Windows\AppData\Local\Temp\jieba.cache Loading model cost 1.140 seconds. Prefix dict has been built successfully. 語料: [['今天天氣', '真不錯(cuò)', '!'], ['明天', '要', '下雨', '?'], ['后天', '要', '打雷', '。']] 去除標(biāo)點(diǎn): [['今天天氣', '真不錯(cuò)'], ['明天', '要', '下雨'], ['后天', '要', '打雷']] 詞袋模型: Dictionary(7 unique tokens: ['今天天氣', '真不錯(cuò)', '下雨', '明天', '要']...) 編號(hào): {'今天天氣': 0, '真不錯(cuò)': 1, '下雨': 2, '明天': 3, '要': 4, '后天': 5, '打雷': 6}
上述就是小編為大家分享的Python如何學(xué)習(xí)NLP自然語言處理基本操作詞袋模型了,如果剛好有類似的疑惑,不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。