您好,登錄后才能下訂單哦!
word2vec介紹
word2vec官網(wǎng):https://code.google.com/p/word2vec/
簡言之:詞向量表示法讓相關(guān)或者相似的詞,在距離上更接近。
具體使用(處理中文)
收集語料
本文:亞馬遜中文書評(píng)語料,12萬+句子文本。
語料以純文本形式存入txt文本。
注意:
理論上語料越大越好
理論上語料越大越好
理論上語料越大越好
重要的事情說三遍。
因?yàn)樘〉恼Z料跑出來的結(jié)果并沒有太大意義。
分詞
中文分詞工具還是很多的,我自己常用的:
- 中科院NLPIR
- 哈工大LTP
- 結(jié)巴分詞
注意:分詞文本將作為word2vec的輸入文件。
分詞文本示例
word2vec使用
python,利用gensim模塊。
win7系統(tǒng)下在通常的python基礎(chǔ)上gensim模塊不太好安裝,所以建議使用anaconda,具體參見: python開發(fā)之a(chǎn)naconda【以及win7下安裝gensim】
直接上代碼—— #!/usr/bin/env python # -*- coding: utf-8 -*- """ 功能:測(cè)試gensim使用,處理中文語料 時(shí)間:2016年5月21日 20:49:07 """ from gensim.models import word2vec import logging # 主程序 logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) sentences = word2vec.Text8Corpus(u"C:\\Users\\lenovo\\Desktop\\word2vec實(shí)驗(yàn)\\亞馬遜中文書評(píng)語料.txt") # 加載語料 model = word2vec.Word2Vec(sentences, size=200) # 默認(rèn)window=5 # 計(jì)算兩個(gè)詞的相似度/相關(guān)程度 y1 = model.similarity(u"不錯(cuò)", u"好") print u"【不錯(cuò)】和【好】的相似度為:", y1 print "--------\n" # 計(jì)算某個(gè)詞的相關(guān)詞列表 y2 = model.most_similar(u"書", topn=20) # 20個(gè)最相關(guān)的 print u"和【書】最相關(guān)的詞有:\n" for item in y2: print item[0], item[1] print "--------\n" # 尋找對(duì)應(yīng)關(guān)系 print u"書-不錯(cuò),質(zhì)量-" y3 = model.most_similar([u'質(zhì)量', u'不錯(cuò)'], [u'書'], topn=3) for item in y3: print item[0], item[1] print "--------\n" # 尋找不合群的詞 y4 = model.doesnt_match(u"書 書籍 教材 很".split()) print u"不合群的詞:", y4 print "--------\n" # 保存模型,以便重用 model.save(u"書評(píng).model") # 對(duì)應(yīng)的加載方式 # model_2 = word2vec.Word2Vec.load("text8.model") # 以一種C語言可以解析的形式存儲(chǔ)詞向量 model.save_word2vec_format(u"書評(píng).model.bin", binary=True) # 對(duì)應(yīng)的加載方式 # model_3 = word2vec.Word2Vec.load_word2vec_format("text8.model.bin", binary=True) if __name__ == "__main__": pass
運(yùn)行結(jié)果
【不錯(cuò)】和【好】的相似度為: 0.790186663972
--------和【書】最相關(guān)的詞有:
書籍 0.675163209438
書本 0.633386790752
確實(shí) 0.568059504032
教材 0.551493048668
正品 0.532882153988
沒得說 0.529319941998
好 0.522468209267
據(jù)說 0.51004421711
圖書 0.508755385876
挺 0.497194319963
新書 0.494331330061
很 0.490583062172
不錯(cuò) 0.476392805576
正版 0.460161447525
紙張 0.454929769039
可惜 0.450752496719
工具書 0.449723362923
的確 0.448629021645
商品 0.444284260273
紙質(zhì) 0.443040698767
--------書-不錯(cuò),質(zhì)量-
精美 0.507958948612
總的來說 0.496103972197
材質(zhì) 0.493623793125
--------不合群的詞: 很
以上就是本文的全部內(nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持億速云。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。