詞向量-LRWE模型

發(fā)布時間：2020-07-18 09:56:11 來源：網(wǎng)絡閱讀：959 作者：zsdnr 欄目：網(wǎng)絡安全

我們嘗試基于CBOW模型，將知識庫中抽取的知識融合共同訓練，提出LRWE模型。模型的結構圖如下：

詞向量-LRWE模型

下面詳細介紹該模型的思想和求解方法。

1. LWE模型

在Word2vec的CBOW模型中，通過上下文的詞預測目標詞，目標是讓目標詞在其給定上下文出現(xiàn)的概率最大，所以詞向量訓練的結果是與其上下文的詞相關聯(lián)的。然而 CBOW模型只考慮了詞語的局部上下文信息，無法很好的表達同義詞和反義詞等信息。例如下面的幾個case：

詞向量-LRWE模型

為了解決上述問題，本文將同義詞和反義詞等詞匯信息以外部知識的形式，作為詞向量訓練中的監(jiān)督數(shù)據(jù)，讓訓練得到的詞向量能學習到同義、反義等詞匯信息，從而能更好地區(qū)分同義詞和反義詞。

1.1 模型思想

記的同義詞和反義詞集合為( , , )，其中 SYN 表示同義詞集合，ANT 表示反義詞集合，我們的目標是已知目標詞對應的同義詞集合和反義詞集合，預測目標詞，使得目標詞和它的同義詞距離盡可能相近，與反義詞距離盡可能遠。

例如“The cat sat on the mat.”，已知sat有同義詞seated，反義詞stand，來預測目標詞為sat。

該模型稱為詞匯信息模型，模型結構圖如下：

詞向量-LRWE模型

對于一個詞語，我們根據(jù)它的同義詞和反義詞預測目標詞，最大化詞語和它的同義詞同時出現(xiàn)的概率，并降低詞語和它反義詞同時出現(xiàn)的概率。根據(jù)這個目標，定義以下的目標函數(shù):

詞向量-LRWE模型

我們目標是在基于上下文的CBOW語言模型訓練過程中，加入同義詞反義詞信息作為監(jiān)督，使得訓練所得詞向量能學習到同義和反義知識。基于該想法，我們提出基于詞匯信息的詞向量模型(Lexical Information Word Embedding，LWE)，目標函數(shù)為

詞向量-LRWE模型

模型的結構圖如下：

詞向量-LRWE模型

需要注意的是，CBOW模型和詞匯信息模型共用同一份詞向量，這是為了通過共享表示來獲得彼此的知識信息，使得詞向量在訓練的時候，能綜合利用上下文信息和同義詞反義詞信息，從而得到更高質量的詞向量。

1.2 模型求解

從模型結構圖中可以看出，LWE可以看成兩個CBOW模型的疊加，因此優(yōu)化求解方法和CBOW模型一樣，本文采用的是Negative Sampling進行優(yōu)化。

使用 Negative Sampling 的方法，目標詞視為正樣本，通過負采樣的其它詞稱為負樣本，而在我們的模型之中，對于詞語的同義詞集合來說，目標詞是正樣本，在同義詞集合之外的詞語都為負樣本，記的同義詞集合為，對于∈ 則有負樣本集合為 = || ，記指示函數(shù)

詞向量-LRWE模型

其中正樣本標簽為 1，負樣本標簽為 0。則對于樣本 (, )，訓練目標函數(shù)(3-1)中

詞向量-LRWE模型

反義詞同理，所以對于整個詞表 V 來說，整體的目標函數(shù)是:

詞向量-LRWE模型

1.3 參數(shù)更新

要最大化目標函數(shù)(3-6)，我們使用隨機梯度上升法。用隨機梯度上升方法求解時，需要分別求目標函數(shù)關于 eu 和 θw 的導數(shù)，為了方便推導，記

詞向量-LRWE模型從上式可看出同義詞和反義詞的目標函數(shù)除了定義域不同，其函數(shù)表達式是一樣的，因此只需對函數(shù) Ψ 進行求導。函數(shù) Ψ 對求導，可得:

詞向量-LRWE模型

所以的更新公式為:

詞向量-LRWE模型

2. RWE模型

詞語之間具有很多復雜的語義關系，例如上下位關系，“music”是“mp3” 的上位詞，“bird”是“animal”的下位詞，這里“animal”的下位詞除了“bird” 外，還有有“fish”、“insect”等，具有相同上位詞 “fish”、“insect” 和“bird”，某種意義上應該是相似或者說相關的，但 Word2vec 只利用大規(guī)模語料中的詞語共現(xiàn)信息進行訓練，所得的詞向量只能學習到文本上下文信息，就無法學習到這種詞語間的關系，所以其它復雜的語義關系也很難表達充分。

而知識圖譜中含有實體詞語豐富的關系信息，所以，本文提出基于關系信息的詞向量模型，將語言模型和知識表示學習模型進行共同訓練，在訓練語言模型的時候，加入從知識圖譜抽取的多種關系知識，使得詞向量訓練過程不僅僅根據(jù)上下文詞語共現(xiàn)的信息，還學習到對應的關系知識，從而提升詞向量的質量。

2.1 模型思想

知識圖譜中的知識，一般以三元組 (h, , ) 的形式進行組織，根據(jù)CBOW的訓練過程，我們可以構造樣本 (h, , )，其中表示關聯(lián)的多種不同的關系，例如(animal, _hyponymy, bird)。

在提取三元組數(shù)據(jù)后，需要對詞語的關系建立表示，如TransE 模型，便是最方便有效的表示方法?；舅枷胧菍τ谌M (h, , )，若三元組是事實信息，則有 + ≈ ，即 + 對應向量應與更相近。

該模型稱為關系信息模型，模型結構圖如下，模型的輸入層是目標詞的對應的三元組集合(h, , )，投影層做了恒等投影，輸出層是在字典中預測目標詞。

詞向量-LRWE模型

對一個詞語，利用知識圖譜中的關系三元組這種有監(jiān)督的數(shù)據(jù)，我們希望能讓詞語學習到豐富的關系語義信息，根據(jù)這個目標，定義以下的目標函數(shù):

詞向量-LRWE模型

那么在基于上下文的 CBOW 語言模型訓練過程中，加入豐富的關系信息作為監(jiān)督，使得訓練所得詞向量能學習詞與詞之間的復雜語義關系?；谠撓敕?，我們提出基于關系信息的詞向量模型(Relational Information Word Embedding，RWE)，目標函數(shù)為:

詞向量-LRWE模型模型結構圖如下：兩個模型共享同一套詞向量，同時本文為三元組中的關系設置分配新的向量空間，也就是說關系向量和詞向量獨立表示，原因是為了避免與詞向量產(chǎn)生沖突。

詞向量-LRWE模型

2.2 求解方法

同樣，我們采用Negative Sampling進行優(yōu)化。化簡過程和1.2相似，這里給出整體的目標函數(shù)

詞向量-LRWE模型

2.3 參數(shù)更新

同樣，采用隨機梯度上升方法進行更新。求解時，需要分別求目標函數(shù)關于 eh+r 和 θw 的導數(shù)，為了方便推導，記

詞向量-LRWE模型

函數(shù) Ψ 對 θu 求導，可得:

詞向量-LRWE模型

θu 的更新公式為:

詞向量-LRWE模型

3. LRWE模型

前兩節(jié)介紹了兩個模型，分別是基于詞匯信息的詞向量模型和基于關系信息的詞向量模型，兩模型分別適合特定情景下的問題。本文嘗試將兩個模型進行聯(lián)合，讓詞向量在訓練的時候，既能學習到同義詞反義詞等詞匯信息，又能學習到復雜的關系語義信息，基于該目標，得到聯(lián)合模型LRWE。

聯(lián)合的詞向量模型目標函數(shù)如下:

詞向量-LRWE模型

模型的結構圖如下：

詞向量-LRWE模型 3.1 模型特點

通過共享詞向量，同時學習多種信息
不同模塊具有獨立的參數(shù)，保持任務差異性
重新分配關系向量空間，避免沖突

3.2 模型的理論比較

從參數(shù)個數(shù)角度，LWE 是在 CBOW 基礎上使用詞匯信息進行監(jiān)督，共享一份詞向量，同時需要多一份輔助參數(shù)向量，故參數(shù)個數(shù)為 2|| × || + || × || = 3|| × ||; 同理，基于關系信息的詞向量模型 RWE，與 CBOW 共享一份詞向量，以及擁有獨立的輔助參數(shù)向量，此外還有一份關系向量，故參數(shù)個數(shù)為3|| × || + || × ||; 聯(lián)合的詞向量模型 LRWE 是上述兩模型的聯(lián)合，故參數(shù)個數(shù)為 4|| × || + || × ||。

model	參數(shù)個數(shù)
CBOW	2\|\| × \|\|
LWE	3\|\| × \|\|
RWE	3\|\|×\|\|+\|\|×\|\|
LRWE	4\|\|×\|\|+\|\|×\|\|

從時間復雜度角度，CBOW 模型通過掃描語料的每一個詞，取該詞及其上下文作為一個樣本，因此接下來對比模型時，只分析訓練一個樣本的時間復雜度。

CBOW 模型只有輸出層 Softmax 預測需要大量的計算，其訓練的復雜度為 (|| × ||)，如果采用 Hierarchical Softmax 對輸出層的 Softmax 做優(yōu)化，可以加速到(|| × ||)，而采用Negative Sampling，可進一步將復雜度優(yōu)化到(||)。而 LWE 和 RWE 可以認為是兩個CBOW模型的疊加，時間復雜度為(2||) ，雖然相比 CBOW 模型較復雜，但在線性時間內能學習到更多的語義信息，使得詞向量表達更充分。

向AI問一下細節(jié)

詞向量-LRWE模型

猜你喜歡

最新資訊

相關推薦

相關標簽