<th id="syodh"></th>

<strike id="syodh"></strike>

<style id="syodh"><em id="syodh"><p id="syodh"></p></em></style>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

EMNLP19如何在Transformer中融入句法樹信息

發(fā)布時(shí)間：2021-12-06 09:18:02 來源：億速云閱讀：106 作者：柒染欄目：大數(shù)據(jù)

這篇文章給大家介紹EMNLP19如何在Transformer中融入句法樹信息，內(nèi)容非常詳細(xì)，感興趣的小伙伴們可以參考借鑒，希望對(duì)大家能有所幫助。

介紹

之前其實(shí)有很多工作將句法信息融入到了RNN中，例如ON-LSTM和PRPN，用來隱式建模句法結(jié)構(gòu)信息，同時(shí)提升語言模型的準(zhǔn)確率。本文嘗試將句法信息融入到Transformer中，用來賦予attention更好的解釋性。同時(shí)可以無監(jiān)督的預(yù)測(cè)出句子的句法樹，并且相比于一般的Transformer，語言模型的性能有所提高。

模型結(jié)構(gòu)

EMNLP19如何在Transformer中融入句法樹信息

上面這張是模型結(jié)構(gòu)，最主要的區(qū)別就是在multi-head attention操作基礎(chǔ)上新增了一個(gè)成分的attention，用來表示一段span能否構(gòu)成一個(gè)短語。比如上圖中，“cute dog”構(gòu)成一個(gè)短語，所以第0層中這兩個(gè)單詞的attention較大。而“the cute dog”構(gòu)成了一個(gè)更大的短語，所以第1層中“the”和“dog”的attention較大。

回顧self-attention的操作，主要是計(jì)算兩個(gè)單詞的向量點(diǎn)積：

EMNLP19如何在Transformer中融入句法樹信息

這里 EMNLP19如何在Transformer中融入句法樹信息一般取。但是在本文中，新增加了一個(gè)成分先驗(yàn) ，其中表示和在一個(gè)短語內(nèi)的概率。然后與原來的self-attention做元素乘即可：

EMNLP19如何在Transformer中融入句法樹信息

注意不同的head之間共享 EMNLP19如何在Transformer中融入句法樹信息。

那么這個(gè)成分先驗(yàn) EMNLP19如何在Transformer中融入句法樹信息怎么算呢？這里把它拆成若干相鄰單詞在同一短語內(nèi)概率的乘積。也就是定義為單詞和在同一短語內(nèi)的概率，那么就可以表示為：

EMNLP19如何在Transformer中融入句法樹信息

這樣只有 EMNLP19如何在Transformer中融入句法樹信息到中所有單詞都有較大概率在同一短語中，取值才比較大。當(dāng)然在實(shí)現(xiàn)中會(huì)取對(duì)數(shù)，來避免數(shù)值太小。

那么問題又來了， EMNLP19如何在Transformer中融入句法樹信息怎么算？首先類似self-attention，計(jì)算相鄰兩個(gè)單詞屬于同一短語的得分：

EMNLP19如何在Transformer中融入句法樹信息

這里 EMNLP19如何在Transformer中融入句法樹信息取，是head數(shù)。

注意這里區(qū)分了方向，也就是還存在得分 EMNLP19如何在Transformer中融入句法樹信息，并且兩者雖然意義是一樣的，但是分?jǐn)?shù)不一定相同。為了防止出現(xiàn)一種問題，也就是所有得分全部相同，然后算出來概率全是1，那就沒有意義了，所以要給得分加上限制，也就是歸一化。這里選擇歸一化一個(gè)單詞和左右鄰居兩者的得分：

EMNLP19如何在Transformer中融入句法樹信息

然后由于 EMNLP19如何在Transformer中融入句法樹信息和值不一樣，所以取平均：

EMNLP19如何在Transformer中融入句法樹信息

這樣的話，如果兩個(gè)相鄰單詞互相之間連接的概率很大，就會(huì)導(dǎo)致 EMNLP19如何在Transformer中融入句法樹信息很大，也就說明了這兩個(gè)單詞大概率屬于同一個(gè)短語。

從第一張模型圖中可以看到，成分attention不只計(jì)算了一層。低層可以用來表示兩兩相鄰單詞之間屬于同一短語的概率，而高層可以表示屬于更大的短語的概率。注意還得滿足一個(gè)性質(zhì)，也就是如果兩個(gè)單詞在低層大概率屬于同一個(gè)短語，那他們高層肯定更大概率屬于一個(gè)更大的短語。所以計(jì)算方式如下：

EMNLP19如何在Transformer中融入句法樹信息

初始化的時(shí)候 EMNLP19如何在Transformer中融入句法樹信息都設(shè)為0。這樣對(duì)于每一層都可以得到一個(gè)成分先驗(yàn) 。

無監(jiān)督句法分析

EMNLP19如何在Transformer中融入句法樹信息

上圖是句法樹解碼算法，類似于句法距離那篇論文的解碼算法。因?yàn)?nbsp; EMNLP19如何在Transformer中融入句法樹信息表示的是相鄰兩個(gè)單詞屬于同一個(gè)短語的概率，所以首先找最小的，然后從這里將短語劃分為兩個(gè)子短語，然后遞歸劃分下去。但是這樣效果可能不是很好，因?yàn)閱蝹€(gè)一層表示的短語范圍其實(shí)是有限的，并不能很好的囊括所有的短語。所以像上圖一樣，從最高層開始遞歸開始解碼。首先找到最小值 EMNLP19如何在Transformer中融入句法樹信息，如果大于閾值（實(shí)驗(yàn)中為0.8），那說明這個(gè)分割點(diǎn)不可信。如果這時(shí)候已經(jīng)到了第層（實(shí)驗(yàn)中設(shè)為3），那沒辦法了，說明了這些單詞沒有分割點(diǎn)，全當(dāng)作一個(gè)短語就行了。如果還沒到第 EMNLP19如何在Transformer中融入句法樹信息層，那就繼續(xù)往下一層找分割點(diǎn)。而如果小于閾值，說明分割點(diǎn)可信，那就這么劃分下去好了。

實(shí)驗(yàn)

首先是在WSJ測(cè)試集上的無監(jiān)督句法分析結(jié)果：

EMNLP19如何在Transformer中融入句法樹信息

可以看到Tree-Transformer效果還是好于之前的ON-LSTM和PRPN的，雖然比在NLI上訓(xùn)練的DIORA略差，但也情有可原，畢竟人家訓(xùn)練集大，而且是全局解碼，甚至還達(dá)到了URNNG的效果。而層數(shù)選擇10層是效果最好的。

然后是在WSJ10測(cè)試集上的無監(jiān)督句法分析結(jié)果：

EMNLP19如何在Transformer中融入句法樹信息

可以看到，長(zhǎng)度很短的時(shí)候Tree-Transformer效果就甚至不如PRPN了，和ON-LSTM相比其實(shí)也半斤八兩。論文并沒有分析原因，甚至都沒有提這個(gè)。

然后是采用不同的層做出來的無監(jiān)督句法分析結(jié)果：

EMNLP19如何在Transformer中融入句法樹信息

可以看到，最小遞歸到第三層的時(shí)候結(jié)果最好，而看的層數(shù)越少，也就是只看高層的，效果非常的差。只看單獨(dú)一層的效果也不大行，這都說明了高層的表示更加的抽象，其實(shí)不大適宜句法信息的表示。而低層又太接近單詞層面了，都是表面信息。這其實(shí)和最近的一篇解釋bert中attention含義的論文結(jié)果一致，中間層的attention表示的是句法信息。

最后是語言模型的困惑度結(jié)果：

EMNLP19如何在Transformer中融入句法樹信息

這里就只和普通的Transformer相比了，結(jié)果還是更好的。因?yàn)檫@里得用masked LM做目標(biāo)函數(shù)，所以沒法和ON-LSTM、PRPN等語言模型相比。

其他關(guān)于attention解釋性等討論詳見論文，我覺得沒有多大意思，attention的可解釋性最近爭(zhēng)論一直很大，強(qiáng)行解釋沒有意義。

小編提出的Tree Transformer用成分先驗(yàn)表示兩個(gè)單詞屬于同一個(gè)短語的概率，然后和self-attention聯(lián)合決定兩個(gè)單詞之間的attention。并且提出了一種解碼出句法樹的算法，但是還存在著一些問題。

文中說嘗試過用Transformer預(yù)訓(xùn)練Tree Transformer，這樣loss下降的更低了，擬合的更好，但是解碼出的句法樹效果更差了。這其實(shí)是有道理的，之前見過一篇分析論文，提到了語言模型訓(xùn)練的好，并不一定代表著句法樹學(xué)的好，這兩者不能劃等號(hào)。

關(guān)于EMNLP19如何在Transformer中融入句法樹信息就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò)，可以把它分享出去讓更多的人看到。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
如何優(yōu)化Hibernate性能
下一篇新聞：
Hibernate Util怎么使用

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼