溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

RNN在做語義分析該怎么理解

發(fā)布時(shí)間:2022-01-14 15:31:48 來源:億速云 閱讀:106 作者:柒染 欄目:云計(jì)算

今天給大家介紹一下RNN在做語義分析該怎么理解。文章的內(nèi)容小編覺得不錯(cuò),現(xiàn)在給大家分享一下,覺得有需要的朋友可以了解一下,希望對大家有所幫助,下面跟著小編的思路一起來閱讀吧。

    這個(gè)例子是deeplearnling/tutorial/rnnslu.html中的例子。

  1. 任務(wù):

  2.     The Slot-Filling (Spoken Language Understanding) consists in assigning a label to each word given a sentence. It’s a classification task.

        口語理解是為給定的一個(gè)句子分配標(biāo)簽。是一個(gè)分類問題。

  3. 數(shù)據(jù)集

  4.   采用的數(shù)據(jù)集是ATIS (Airline Travel Information System) dataset,是一個(gè)文本的數(shù)據(jù)分類的數(shù)據(jù)集,是根據(jù)航天公司電話預(yù)約時(shí)的電話記錄,已通過語音處理轉(zhuǎn)成了文字,采用(IOB)的表示方式。

    IOB的表示方式:B是表示一個(gè)類的開始,I是表示一個(gè)類的中間,O是表示空類。如下表示:

    Input (words)showflightsfromBostontoNewYorktoday
    Output (labels)OOOB-deptOB-arrI-arrB-date

            The ATIS offical split contains 4,978/893 sentences for a total of 56,590/9,198 words (average sentence length is 15) in the train/test set. The number of classes (different slots) is 128 including the O label (NULL).

             ATIS官方把整個(gè)數(shù)據(jù)集分為訓(xùn)練集/測試集--4978/893個(gè)句子,一共有56590/9198單詞(平均每一個(gè)句子有15個(gè)單詞)。分為128個(gè)類,里面包含了O(空類)。

             如果沒有出現(xiàn)的詞用<UNK>類表示。

             對數(shù)據(jù)分類的準(zhǔn)確性用如下三個(gè)指標(biāo):Precision(精度),Recall(召回率),F(xiàn)1 score 。這個(gè)百度一下就知道了,簡單地說,這三個(gè)都能表示分類準(zhǔn)確率,滿分是100,其中Precision,Recall有一定互斥性,故F1 score,是最好的。

            我們還可以使用conlleval.pl 的PERL程序看出分類后的結(jié)果。

  5. RNN模型與數(shù)據(jù)處理

  6.     數(shù)據(jù)表示:每一個(gè)單詞一開始的代表是一個(gè)token,編程表示為一個(gè)數(shù)字,一句話就是多個(gè)數(shù)字組成的,這是輸入表示,不過不是最終表示,輸出對應(yīng)的一個(gè)標(biāo)簽。

    RNN在做語義分析該怎么理解

            上下文窗口:

        The index -1 corresponds to the PADDING index we insert at the beginning/end of the sentence.

    RNN在做語義分析該怎么理解

            從上可以看出,窗口設(shè)的越大,數(shù)據(jù)長度越長。

            詞向量:

            詞向量是很有創(chuàng)新性的表示方式,一個(gè)單詞表示如果用One-hot Representation,如,

           “話筒”表示為 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …]
      “麥克”表示為 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 …]

            其中只有一個(gè)為1,有很多有缺陷,故有了詞向量。把一個(gè)詞表示成[0.792, ?0.177, ?0.107, 0.109, ?0.542, …]。維度以 50 維和 100 維比較常見。這個(gè)詞向量不是固定的,也是要經(jīng)過訓(xùn)練得到的。

            RNN要學(xué)習(xí)的參數(shù):

            RNN在做語義分析該怎么理解

            RNN整個(gè)架構(gòu)設(shè)置好的參數(shù):

           RNN在做語義分析該怎么理解

  7. 跑程序RNN在做語義分析該怎么理解

以上就是RNN在做語義分析該怎么理解的全部內(nèi)容了,更多與RNN在做語義分析該怎么理解相關(guān)的內(nèi)容可以搜索億速云之前的文章或者瀏覽下面的文章進(jìn)行學(xué)習(xí)哈!相信小編會(huì)給大家增添更多知識(shí),希望大家能夠支持一下億速云!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

rnn
AI