nlp自然語(yǔ)言處理基于SVD的降維優(yōu)化方法

發(fā)布時(shí)間：2022-04-06 10:16:47 來(lái)源：億速云閱讀：164 作者：iii 欄目：開(kāi)發(fā)技術(shù)

這篇文章主要介紹“nlp自然語(yǔ)言處理基于SVD的降維優(yōu)化方法”，在日常操作中，相信很多人在nlp自然語(yǔ)言處理基于SVD的降維優(yōu)化方法問(wèn)題上存在疑惑，小編查閱了各式資料，整理出簡(jiǎn)單好用的操作方法，希望對(duì)大家解答”nlp自然語(yǔ)言處理基于SVD的降維優(yōu)化方法”的疑惑有所幫助！接下來(lái)，請(qǐng)跟著小編一起來(lái)學(xué)習(xí)吧！

基于SVD的降維優(yōu)化

向量降維：盡量保留數(shù)據(jù)“重要信息”的基礎(chǔ)上減少向量維度?？梢园l(fā)現(xiàn)重要的軸（數(shù)據(jù)分布廣的軸），將二維數(shù)據(jù) 表示為一維數(shù)據(jù)，用新軸上的投影值來(lái)表示各個(gè)數(shù)據(jù)點(diǎn)的值，示意圖如下。

稀疏矩陣和密集矩陣轉(zhuǎn)換：大多數(shù)元素為0的矩陣稱為稀疏矩陣，從稀疏矩陣中找出重要的軸，用更少的維度對(duì)其進(jìn)行重新表示。結(jié)果，稀疏矩陣就會(huì)被轉(zhuǎn)化為大多數(shù)元素均不為0的密集矩陣。這個(gè)密集矩陣就是我們想要的單詞的分布式表示。

奇異值分解(Singular Value Decomposition，SVD)：任意的矩陣X分解為U、S、V，3個(gè)矩陣的乘積，其中U和V是列向量彼此正交的正交矩陣，S是除了對(duì)角線元素以外其余元素均為0的對(duì)角矩陣。

nlp自然語(yǔ)言處理基于SVD的降維優(yōu)化方法

關(guān)于SVD是怎么回事，從代碼中分析：

代碼中使用 NumPy 的 linalg 模塊中的 svd 方法，如下。

U, S, V = np.linalg.svd(W)

我們輸出C、W、U、S、V，如下所示，可以看出，C是共現(xiàn)矩陣、W是PPMI矩陣?？梢钥吹絊矩陣是降序排列的。

[0 1 0 0 0 0 0]
[1 0 1 0 1 1 0]
[0 1 0 1 0 0 0]
[0 0 1 0 1 0 0]
[0 1 0 1 0 0 0]
[0 1 0 0 0 0 1]
[0 0 0 0 0 1 0]

[[0.    1.807 0.    0.    0.    0.    0.   ]
 [1.807 0.    0.807 0.    0.807 0.807 0.   ]
 [0.    0.807 0.    1.807 0.    0.    0.   ]
 [0.    0.    1.807 0.    1.807 0.    0.   ]
 [0.    0.807 0.    1.807 0.    0.    0.   ]
 [0.    0.807 0.    0.    0.    0.    2.807]
 [0.    0.    0.    0.    0.    2.807 0.   ]]
 
[[-3.409e-01 -1.110e-16 -3.886e-16 -1.205e-01  0.000e+00  9.323e-01  2.664e-16]
 [ 0.000e+00 -5.976e-01  1.802e-01  0.000e+00 -7.812e-01  0.000e+00  0.000e+00]
 [-4.363e-01 -4.241e-17 -2.172e-16 -5.088e-01 -1.767e-17 -2.253e-01  -7.071e-01]
 [-2.614e-16 -4.978e-01  6.804e-01 -4.382e-17  5.378e-01  9.951e-17  -3.521e-17]
 [-4.363e-01 -3.229e-17 -1.654e-16 -5.088e-01 -1.345e-17 -2.253e-01  7.071e-01]
 [-7.092e-01 -3.229e-17 -1.654e-16  6.839e-01 -1.345e-17 -1.710e-01  9.095e-17]
 [ 3.056e-16 -6.285e-01 -7.103e-01  7.773e-17  3.169e-01 -2.847e-16  4.533e-17]]

  
[3.168e+00 3.168e+00 2.703e+00 2.703e+00 1.514e+00 1.514e+00 1.484e-16]

[[ 0.000e+00 -5.976e-01 -2.296e-16 -4.978e-01 -1.186e-16  2.145e-16  -6.285e-01]
 [-3.409e-01 -1.110e-16 -4.363e-01  0.000e+00 -4.363e-01 -7.092e-01  0.000e+00]
 [ 1.205e-01 -5.551e-16  5.088e-01  0.000e+00  5.088e-01 -6.839e-01  0.000e+00]
 [-0.000e+00 -1.802e-01 -1.586e-16 -6.804e-01  6.344e-17  9.119e-17  7.103e-01]
 [-9.323e-01 -5.551e-17  2.253e-01  0.000e+00  2.253e-01  1.710e-01  0.000e+00]
 [-0.000e+00  7.812e-01  2.279e-16 -5.378e-01  3.390e-16 -2.717e-16  -3.169e-01]
 [ 0.000e+00  2.632e-16 -7.071e-01  8.043e-18  7.071e-01  9.088e-17  1.831e-17]]

下面研究U、S、V矩陣究竟是什么，添加如下代碼。

print("______________________")
jym = np.dot(V, U)
print(jym)
print("______________________")
jym2 = np.dot(U, V)
print(jym2)
print("______________________")
V2 = np.transpose(V)
jb = np.dot(V, V2)
print(jb)

輸出如下，那就可以把U和V的性質(zhì)給搞懂了。從jb = np.dot(V, V2)，輸出jb矩陣是單位矩陣，可知，V和U是正交矩陣。jym = np.dot(V, U)，輸出jym主對(duì)角線元素全為0。U和V是列向量彼此正交的，公式里面把V轉(zhuǎn)置了也就是說(shuō)，U的列向量和代碼里的V的行向量是正交的，所以用V乘U，他們的對(duì)角元是0。

[[-6.212e-17  1.000e+00  1.015e-08  2.968e-16 -5.249e-09  1.712e-16  6.754e-17]
 [ 1.000e+00  1.597e-16  3.967e-16 -2.653e-08  1.099e-16 -1.336e-08  -5.293e-09]
 [ 2.653e-08  3.025e-16 -2.284e-16 -1.000e+00  4.270e-16  1.110e-08  5.760e-09]
 [ 3.718e-16 -1.015e-08 -1.000e+00  1.958e-16  4.416e-10 -2.641e-16  2.132e-16]
 [ 1.336e-08  1.143e-16  2.378e-16  1.110e-08  3.405e-17 -1.000e+00  -2.662e-09]
 [-1.096e-17  5.249e-09  4.416e-10 -4.753e-16 -1.000e+00 -4.458e-17  8.307e-17]
 [-5.293e-09 -1.657e-16  7.657e-17 -5.760e-09 -1.925e-16  2.662e-09  1.000e+00]]

[[-8.977e-18  9.539e-01 -2.775e-17 -2.497e-01  3.879e-16  7.108e-18  -1.668e-01]
 [ 9.539e-01  9.667e-18  1.764e-01  0.000e+00  1.764e-01  1.670e-01  0.000e+00]
 [ 4.757e-18  1.764e-01  5.000e-01  6.846e-01 -5.000e-01  3.262e-17  -1.578e-02]
 [-2.497e-01 -1.105e-16  6.846e-01  1.064e-16  6.846e-01 -2.032e-02  1.016e-16]
 [ 3.622e-18  1.764e-01 -5.000e-01  6.846e-01  5.000e-01  1.192e-16  -1.578e-02]
 [ 3.622e-18  1.670e-01 -1.220e-16 -2.032e-02  6.079e-17  9.043e-17  9.857e-01]
 [-1.668e-01  2.741e-17 -1.578e-02 -5.192e-17 -1.578e-02  9.857e-01  -4.663e-17]]

[[ 1.000e+00  6.620e-17  7.901e-18 -1.015e-08 -8.632e-18  5.249e-09  -9.431e-17]
 [ 6.620e-17  1.000e+00  2.653e-08 -3.141e-18  1.336e-08 -1.414e-16  -5.293e-09]
 [ 7.901e-18  2.653e-08  1.000e+00 -1.074e-17 -1.110e-08  4.054e-17  5.760e-09]
 [-1.015e-08 -3.141e-18 -1.074e-17  1.000e+00  4.150e-18 -4.416e-10  1.171e-16]
 [-8.632e-18  1.336e-08 -1.110e-08  4.150e-18  1.000e+00  3.792e-17  -2.662e-09]
 [ 5.249e-09 -1.414e-16  4.054e-17 -4.416e-10  3.792e-17  1.000e+00  2.740e-16]
 [-9.431e-17 -5.293e-09  5.760e-09  1.171e-16 -2.662e-09  2.740e-16  1.000e+00]]

SVD的直觀意義

U是正交矩陣。這個(gè)正交矩陣構(gòu)成了一些空間中的基軸（基向量），可以將矩陣U作為“單詞空間”。 S是對(duì)角矩陣，奇異值在對(duì)角線上降序排列，奇異值的大小也就意味著“對(duì)應(yīng)的基軸”的重要性。奇異值小，對(duì)應(yīng)基軸重要性就小，所以可以通過(guò)去除U矩陣中的多余的列向量來(lái)近似原始矩陣。從而把單詞向量用降維后的矩陣表示。示意圖如下。

nlp自然語(yǔ)言處理基于SVD的降維優(yōu)化方法

稀疏向量W經(jīng)過(guò) SVD 被轉(zhuǎn)化成了密集向量U。如果要對(duì)這個(gè)密集向量降維，比如把它降維到二維向量，取出U的前兩個(gè)元素即可。

text = 'You say goodbye and I say hello.'
corpus, word_to_id, id_to_word = preprocess(text)
vocab_size = len(id_to_word)
C = create_co_matrix(corpus, vocab_size, window_size=1)
W = ppmi(C)
# SVD
U, S, V = np.linalg.svd(W)
np.set_printoptions(precision=3)  # 有效位數(shù)為3位
for i in range(7):
    print(C[i])
print(U)
# plot
for word, word_id in word_to_id.items():
    plt.annotate(word, (U[word_id, 0], U[word_id, 1]))
plt.scatter(U[:,0], U[:,1], alpha=0.5)
plt.show()

輸出的U：

[[-3.409e-01 -1.110e-16 -3.886e-16 -1.205e-01  0.000e+00  9.323e-01
   2.664e-16]
 [ 0.000e+00 -5.976e-01  1.802e-01  0.000e+00 -7.812e-01  0.000e+00
   0.000e+00]
 [-4.363e-01 -4.241e-17 -2.172e-16 -5.088e-01 -1.767e-17 -2.253e-01
  -7.071e-01]
 [-2.614e-16 -4.978e-01  6.804e-01 -4.382e-17  5.378e-01  9.951e-17
  -3.521e-17]
 [-4.363e-01 -3.229e-17 -1.654e-16 -5.088e-01 -1.345e-17 -2.253e-01
   7.071e-01]
 [-7.092e-01 -3.229e-17 -1.654e-16  6.839e-01 -1.345e-17 -1.710e-01
   9.095e-17]
 [ 3.056e-16 -6.285e-01 -7.103e-01  7.773e-17  3.169e-01 -2.847e-16
   4.533e-17]]

用二維向量表示各個(gè)單詞，并把它們畫(huà)在圖上，畫(huà)出的圖如下：goodbye 和 hello、you 和 i 位置接近，這個(gè)結(jié)果復(fù)合之前做的基于余弦相似度的結(jié)果。

nlp自然語(yǔ)言處理基于SVD的降維優(yōu)化方法

到此，關(guān)于“nlp自然語(yǔ)言處理基于SVD的降維優(yōu)化方法”的學(xué)習(xí)就結(jié)束了，希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí)，快去試試吧！若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí)，請(qǐng)繼續(xù)關(guān)注億速云網(wǎng)站，小編會(huì)繼續(xù)努力為大家?guī)?lái)更多實(shí)用的文章！

向AI問(wèn)一下細(xì)節(jié)

nlp自然語(yǔ)言處理基于SVD的降維優(yōu)化方法

基于SVD的降維優(yōu)化

SVD的直觀意義

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽