溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

EMNLP19如何在Transformer中融入句法樹信息

發(fā)布時(shí)間:2021-12-06 09:18:02 來源:億速云 閱讀:106 作者:柒染 欄目:大數(shù)據(jù)

這篇文章給大家介紹EMNLP19如何在Transformer中融入句法樹信息,內(nèi)容非常詳細(xì),感興趣的小伙伴們可以參考借鑒,希望對(duì)大家能有所幫助。

介紹

之前其實(shí)有很多工作將句法信息融入到了RNN中,例如ON-LSTM和PRPN,用來隱式建模句法結(jié)構(gòu)信息,同時(shí)提升語言模型的準(zhǔn)確率。本文嘗試將句法信息融入到Transformer中,用來賦予attention更好的解釋性。同時(shí)可以無監(jiān)督的預(yù)測(cè)出句子的句法樹,并且相比于一般的Transformer,語言模型的性能有所提高。

模型結(jié)構(gòu)

EMNLP19如何在Transformer中融入句法樹信息

上面這張是模型結(jié)構(gòu),最主要的區(qū)別就是在multi-head attention操作基礎(chǔ)上新增了一個(gè)成分的attention,用來表示一段span能否構(gòu)成一個(gè)短語。比如上圖中,“cute dog”構(gòu)成一個(gè)短語,所以第0層中這兩個(gè)單詞的attention較大。而“the cute dog”構(gòu)成了一個(gè)更大的短語,所以第1層中“the”和“dog”的attention較大。

回顧self-attention的操作,主要是計(jì)算兩個(gè)單詞的向量點(diǎn)積:

EMNLP19如何在Transformer中融入句法樹信息

這里 EMNLP19如何在Transformer中融入句法樹信息 一般取 EMNLP19如何在Transformer中融入句法樹信息 。但是在本文中,新增加了一個(gè)成分先驗(yàn) EMNLP19如何在Transformer中融入句法樹信息 ,其中 EMNLP19如何在Transformer中融入句法樹信息 表示 EMNLP19如何在Transformer中融入句法樹信息 和 EMNLP19如何在Transformer中融入句法樹信息 在一個(gè)短語內(nèi)的概率。然后與原來的self-attention做元素乘即可:

EMNLP19如何在Transformer中融入句法樹信息

注意不同的head之間共享 EMNLP19如何在Transformer中融入句法樹信息 。

那么這個(gè)成分先驗(yàn) EMNLP19如何在Transformer中融入句法樹信息 怎么算呢?這里把它拆成若干相鄰單詞在同一短語內(nèi)概率的乘積。也就是定義 EMNLP19如何在Transformer中融入句法樹信息 為單詞 EMNLP19如何在Transformer中融入句法樹信息 和 EMNLP19如何在Transformer中融入句法樹信息 在同一短語內(nèi)的概率,那么 EMNLP19如何在Transformer中融入句法樹信息 就可以表示為:

EMNLP19如何在Transformer中融入句法樹信息

這樣只有 EMNLP19如何在Transformer中融入句法樹信息 到 EMNLP19如何在Transformer中融入句法樹信息 中所有單詞都有較大概率在同一短語中, EMNLP19如何在Transformer中融入句法樹信息 取值才比較大。當(dāng)然在實(shí)現(xiàn)中會(huì)取對(duì)數(shù),來避免數(shù)值太小。

那么問題又來了, EMNLP19如何在Transformer中融入句法樹信息 怎么算?首先類似self-attention,計(jì)算相鄰兩個(gè)單詞屬于同一短語的得分:

EMNLP19如何在Transformer中融入句法樹信息

這里 EMNLP19如何在Transformer中融入句法樹信息 取 EMNLP19如何在Transformer中融入句法樹信息 , EMNLP19如何在Transformer中融入句法樹信息 是head數(shù)。

注意這里區(qū)分了方向,也就是還存在得分 EMNLP19如何在Transformer中融入句法樹信息 ,并且兩者雖然意義是一樣的,但是分?jǐn)?shù)不一定相同。為了防止出現(xiàn)一種問題,也就是所有得分全部相同,然后算出來概率全是1,那就沒有意義了,所以要給得分加上限制,也就是歸一化。這里選擇歸一化一個(gè)單詞和左右鄰居兩者的得分:

EMNLP19如何在Transformer中融入句法樹信息

然后由于 EMNLP19如何在Transformer中融入句法樹信息 和 EMNLP19如何在Transformer中融入句法樹信息 值不一樣,所以取平均:

EMNLP19如何在Transformer中融入句法樹信息

這樣的話,如果兩個(gè)相鄰單詞互相之間連接的概率很大,就會(huì)導(dǎo)致 EMNLP19如何在Transformer中融入句法樹信息 很大,也就說明了這兩個(gè)單詞大概率屬于同一個(gè)短語。

從第一張模型圖中可以看到,成分attention不只計(jì)算了一層。低層可以用來表示兩兩相鄰單詞之間屬于同一短語的概率,而高層可以表示屬于更大的短語的概率。注意還得滿足一個(gè)性質(zhì),也就是如果兩個(gè)單詞在低層大概率屬于同一個(gè)短語,那他們高層肯定更大概率屬于一個(gè)更大的短語。所以計(jì)算方式如下:

EMNLP19如何在Transformer中融入句法樹信息

初始化的時(shí)候 EMNLP19如何在Transformer中融入句法樹信息 都設(shè)為0。這樣對(duì)于每一層都可以得到一個(gè)成分先驗(yàn) EMNLP19如何在Transformer中融入句法樹信息 。

無監(jiān)督句法分析

EMNLP19如何在Transformer中融入句法樹信息

上圖是句法樹解碼算法,類似于句法距離那篇論文的解碼算法。因?yàn)?nbsp;EMNLP19如何在Transformer中融入句法樹信息 表示的是相鄰兩個(gè)單詞屬于同一個(gè)短語的概率,所以首先找最小的 EMNLP19如何在Transformer中融入句法樹信息 ,然后從這里將短語劃分為兩個(gè)子短語,然后遞歸劃分下去。但是這樣效果可能不是很好,因?yàn)閱蝹€(gè)一層表示的短語范圍其實(shí)是有限的,并不能很好的囊括所有的短語。所以像上圖一樣,從最高層開始遞歸開始解碼。首先找到最小值 EMNLP19如何在Transformer中融入句法樹信息 ,如果 EMNLP19如何在Transformer中融入句法樹信息 大于閾值(實(shí)驗(yàn)中為0.8),那說明這個(gè)分割點(diǎn)不可信。如果這時(shí)候已經(jīng)到了第 EMNLP19如何在Transformer中融入句法樹信息 層(實(shí)驗(yàn)中設(shè)為3),那沒辦法了,說明了這些單詞沒有分割點(diǎn),全當(dāng)作一個(gè)短語就行了。如果還沒到第 EMNLP19如何在Transformer中融入句法樹信息 層,那就繼續(xù)往下一層找分割點(diǎn)。而如果小于閾值,說明分割點(diǎn)可信,那就這么劃分下去好了。

實(shí)驗(yàn)

首先是在WSJ測(cè)試集上的無監(jiān)督句法分析結(jié)果:

EMNLP19如何在Transformer中融入句法樹信息

可以看到Tree-Transformer效果還是好于之前的ON-LSTM和PRPN的,雖然比在NLI上訓(xùn)練的DIORA略差,但也情有可原,畢竟人家訓(xùn)練集大,而且是全局解碼, 甚至還達(dá)到了URNNG的效果。而層數(shù)選擇10層是效果最好的。

然后是在WSJ10測(cè)試集上的無監(jiān)督句法分析結(jié)果:

EMNLP19如何在Transformer中融入句法樹信息

可以看到,長(zhǎng)度很短的時(shí)候Tree-Transformer效果就甚至不如PRPN了,和ON-LSTM相比其實(shí)也半斤八兩。論文并沒有分析原因,甚至都沒有提這個(gè)。

然后是采用不同的層做出來的無監(jiān)督句法分析結(jié)果:

EMNLP19如何在Transformer中融入句法樹信息

可以看到,最小遞歸到第三層的時(shí)候結(jié)果最好,而看的層數(shù)越少,也就是只看高層的,效果非常的差。只看單獨(dú)一層的效果也不大行,這都說明了高層的表示更加的抽象,其實(shí)不大適宜句法信息的表示。而低層又太接近單詞層面了,都是表面信息。這其實(shí)和最近的一篇解釋bert中attention含義的論文結(jié)果一致,中間層的attention表示的是句法信息。

最后是語言模型的困惑度結(jié)果:

EMNLP19如何在Transformer中融入句法樹信息

這里就只和普通的Transformer相比了,結(jié)果還是更好的。因?yàn)檫@里得用masked LM做目標(biāo)函數(shù),所以沒法和ON-LSTM、PRPN等語言模型相比。

其他關(guān)于attention解釋性等討論詳見論文,我覺得沒有多大意思,attention的可解釋性最近爭(zhēng)論一直很大,強(qiáng)行解釋沒有意義。

小編提出的Tree Transformer用成分先驗(yàn)表示兩個(gè)單詞屬于同一個(gè)短語的概率,然后和self-attention聯(lián)合決定兩個(gè)單詞之間的attention。并且提出了一種解碼出句法樹的算法,但是還存在著一些問題。

文中說嘗試過用Transformer預(yù)訓(xùn)練Tree Transformer,這樣loss下降的更低了,擬合的更好,但是解碼出的句法樹效果更差了。這其實(shí)是有道理的,之前見過一篇分析論文,提到了語言模型訓(xùn)練的好,并不一定代表著句法樹學(xué)的好,這兩者不能劃等號(hào)。

關(guān)于EMNLP19如何在Transformer中融入句法樹信息就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI