純SQL查詢語句如何實現(xiàn)神經(jīng)網(wǎng)絡(luò)

發(fā)布時間：2021-11-29 14:15:41 來源：億速云閱讀：205 作者：柒染欄目：數(shù)據(jù)庫

這篇文章給大家介紹純SQL查詢語句如何實現(xiàn)神經(jīng)網(wǎng)絡(luò)，內(nèi)容非常詳細，感興趣的小伙伴們可以參考借鑒，希望對大家能有所幫助。

我們熟知的SQL是一種數(shù)據(jù)庫查詢語句，它方便了開發(fā)者在大型數(shù)據(jù)中執(zhí)行高效的操作。但本文從另一角度嵌套SQL查詢語句而構(gòu)建了一個簡單的三層全連接網(wǎng)絡(luò)，雖然由于語句的嵌套過深而不能高效計算，但仍然是一個非常有意思的實驗。

在這篇文章中，我們將純粹用SQL實現(xiàn)含有一個隱藏層（以及帶 ReLU 和 softmax 激活函數(shù)）的神經(jīng)網(wǎng)絡(luò)。這些神經(jīng)網(wǎng)絡(luò)訓練的步驟包含前向傳播和反向傳播，將在 BigQuery 的單個SQL查詢語句中實現(xiàn)。當它在 BigQuery 中運行時，實際上我們正在成百上千臺服務(wù)器上進行分布式神經(jīng)網(wǎng)絡(luò)訓練。聽上去很贊，對吧？

也就是說，這個有趣的項目用于測試 SQL 和 BigQuery 的限制，同時從聲明性數(shù)據(jù)的角度看待神經(jīng)網(wǎng)絡(luò)訓練。這個項目沒有考慮任何的實際應(yīng)用，不過***我將討論一些實際的研究意義。

我們先從一個基于神經(jīng)網(wǎng)絡(luò)的簡單分類器開始。它的輸入尺寸為 2，輸出為二分類。我們將有一個維度為 2 的單隱層和 ReLU 激活函數(shù)。輸出層的二分類將使用 softmax 函數(shù)。我們在實現(xiàn)網(wǎng)絡(luò)時遵循的步驟將是在 Karpathy’s CS231n 指南（https://cs231n.github.io/neural-networks-case-study/）中展示的基于 SQL 版本的 Python 示例。

模型

該模型含有以下參數(shù)：

輸入到隱藏層

W: 2×2 的權(quán)重矩陣（元素： w_00, w_01, w_10, w_11）
B: 2×1 的偏置向量（元素：b_0, b_1）

隱藏到輸出層

W2: 2×2 的權(quán)重矩陣(元素： w2_00, w2_01, w2_10, w2_11)
B2: 2×1 的偏置向量(元素：b2_0, b2_1)

訓練數(shù)據(jù)存儲在 BigQuery 表格當中，列 x1 和 x2 的輸入和輸出如下所示（表格名稱：example_project.example_dataset.example_table）

純SQL查詢語句如何實現(xiàn)神經(jīng)網(wǎng)絡(luò)

如前所述，我們將整個訓練作為單個 SQL 查詢語句來實現(xiàn)。在訓練完成后，通過 SQL 查詢語句將會返回參數(shù)的值。正如你可能猜到的，這將是一個層層嵌套的查詢，我們將逐步構(gòu)建以準備這個查詢語句。我們將會從最內(nèi)層的子查詢開始，然后逐個增加嵌套的外層。

前向傳播

首先，我們將權(quán)重參數(shù) W 和 W2 設(shè)為服從正態(tài)分布的隨機值，將權(quán)重參數(shù) B 和 B2 設(shè)置為 0。 W 和 W2 的隨機值可以通過 SQL 本身產(chǎn)生。為了簡單起見，我們將從外部生成這些值并在 SQL 查詢中使用。用于初始化參數(shù)的內(nèi)部子查詢?nèi)缦拢?/p>

SELECT *,                    -0.00569693  AS w_00,                 0.00186517  AS w_01,                 0.00414431  AS w_10,                 0.0105101  AS w_11,                 0.0  AS b_0,                0.0  AS b_1,                -0.01312284  AS w2_00,                - 0.01269512  AS w2_01,                0.00379152  AS w2_10,                     -0.01218354  AS w2_11,                0.0  AS b2_0,                0.0  AS b2_1  FROM  `example_project.example_dataset.example_table`

請注意，表格 example_project.example_dataset.example_table 已經(jīng)包含了列 x1、 x2 和 y。模型參數(shù)將會被作為上述查詢結(jié)果的附加列添加。

接下來，我們將計算隱藏層的激活值。我們將使用含有元素 d0 和 d1 的向量 D 表示隱藏層。我們需要執(zhí)行矩陣操作 D = np.maximum(0, np.dot(X, W) + B)，其中 X 表示輸入向量（元素 x1 和 x2）。這個矩陣運算包括將權(quán)重 W 和輸入 X 相乘，再加上偏置向量 B。然后，結(jié)果將被傳遞給非線性 ReLU 激活函數(shù)，該函數(shù)將會把負值設(shè)置為 0。SQL 中的等效查詢?yōu)椋?/p>

SELECT *,                  (CASE             WHEN ((x1*w_00 + x2*w_10) + b_0) > 0.0 THEN ((x1*w_00 + x2*w_10) + b_0)             ELSE 0.0         END) AS d0,        (CASE             WHEN ((x1*w_01 + x2*w_11) + b_0) > 0.0 THEN ((x1*w_01 + x2*w_11) + b_1)             ELSE 0.0         END) AS d1 FROM {inner subquery}

上面的查詢將兩個新列 d0 和 d1 添加到之前內(nèi)部子查詢的結(jié)果當中。上述查詢的輸出如下所示。

純SQL查詢語句如何實現(xiàn)神經(jīng)網(wǎng)絡(luò)

這完成了從輸入層到隱藏層的一次轉(zhuǎn)換?，F(xiàn)在，我們可以執(zhí)行從隱藏層到輸出層的轉(zhuǎn)換了。

首先，我們將計算輸出層的值。公式是：scores = np.dot(D, W2) + B2。然后，我們將對計算出來的值用 softmax 函數(shù)來獲得每個類的預(yù)測概率。SQL 內(nèi)部的等價子查詢?nèi)缦拢?/p>

SELECT *,        EXP(scores_0)/(EXP(scores_0) + EXP(scores_1)) AS probs_0,        EXP(scores_1)/(EXP(scores_0) + EXP(scores_1)) AS probs_1 FROM   ( SELECT *,                    ((d0*w2_00 + d1*w2_10) + b2_0) AS scores_0,                 ((d0*w2_01 + d1*w2_11) + b2_1) AS scores_1    FROM {INNER sub-query})

首先，我們將使用交叉熵損失函數(shù)來計算當前預(yù)測的總損失。首先，計算每個樣本中正確類預(yù)測概率對數(shù)的負值。交叉熵損失只是這些 X 和 Y 實例中數(shù)值的平均值。自然對數(shù)是一個遞增函數(shù)，因此，將損失函數(shù)定義為負的正確類預(yù)測概率對數(shù)很直觀。如果正確類的預(yù)測概率很高，損失函數(shù)將會很低。相反，如果正確類的預(yù)測概率很低，則損失函數(shù)值將很高。

為了減少過擬合的風險，我們也將同樣增加 L2 正則化。在整體損失函數(shù)中，我們將包含 0.5*reg*np.sum(W*W) + 0.5*reg*np.sum(W2*W2)，其中 reg 是超參數(shù)。在損失函數(shù)中包括這一函數(shù)將會懲罰那些權(quán)重向量中較大的值。

在查詢當中，我們同樣會計算訓練樣本的數(shù)量(num_examples)。這對于后續(xù)我們計算平均值來說很有用。SQL 查詢中計算整體損失函數(shù)的語句如下：

SELECT *,        (sum_correct_logprobs/num_examples) + 1e-3*(0.5*(w_00*w_00 + w_01*w_01 + w_10*w_10 + w_11*w_11) + 0.5*(w2_00*w2_00 + w2_01*w2_01 + w2_10*w2_10 + w2_11*w2_11)) AS loss FROM      (SELECT *,                       SUM(correct_logprobs)  OVER ()  sum_correct_logprobs,                                      COUNT(1)  OVER ()  num_examples    FROM          (SELECT *,                        (CASE                           WHEN y = 0 THEN -1*LOG(probs_0)                           ELSE -1*LOG(probs_1)                     END) AS correct_logprobs       FROM {inner subquery}))

反向傳播

接下來，對于反向傳播，我們將計算每個參數(shù)對于損失函數(shù)的偏導(dǎo)數(shù)。我們使用鏈式法則從***一層開始逐層計算。首先，我們將通過使用交叉熵和 softmax 函數(shù)的導(dǎo)數(shù)來計算 score 的梯度。與此相對的查詢是：

SELECT *,                  (CASE                          WHEN y = 0  THEN (probs_0&ndash;1)/num_examples            ELSE probs_0/num_examples                END)  AS dscores_0,              (CASE                         WHEN y = 1 THEN (probs_1&ndash;1)/num_examples            ELSE probs_1/num_examples               END)  AS dscores_1  FROM {inner subquery}

在上文中，我們用 scores = np.dot(D, W2) + B2 算出了分數(shù)。因此，基于分數(shù)的偏導(dǎo)數(shù)，我們可以計算隱藏層 D 和參數(shù) W2，B2 的梯度。對應(yīng)的查詢語句是：

SELECT *,        SUM(d0*dscores_0) OVER () AS dw2_00,        SUM(d0*dscores_1) OVER () AS dw2_01,         SUM(d1*dscores_0) OVER () AS dw2_10,         SUM(d1*dscores_1) OVER () AS dw2_11,         SUM(dscores_0) OVER () AS db2_0,         SUM(dscores_1) OVER () AS db2_1,         CASE            WHEN (d0) <= 0.0  THEN 0.0            ELSE (dscores_0*w2_00 + dscores_1*w2_01)         END AS dhidden_0,        CASE            WHEN (d1) <= 0.0 THEN 0.0            ELSE (dscores_0*w2_10 + dscores_1*w2_11)        END AS dhidden_1  FROM {inner subquery}

同理，我們知道 D = np.maximum(0, np.dot(X, W) + B)。因此，通過 D 的偏導(dǎo)，我們可以計算出 W 和 B 的導(dǎo)數(shù)。我們無須計算 X 的偏導(dǎo)，因為它不是模型的參數(shù)，且也不必通過其它模型參數(shù)進行計算。計算 W 和 B 的偏導(dǎo)的查詢語句如下：

SELECT *,         SUM(x1*dhidden_0) OVER () AS dw_00,         SUM(x1*dhidden_1) OVER () AS dw_01,         SUM(x2*dhidden_0) OVER () AS dw_10,         SUM(x2*dhidden_1) OVER () AS dw_11,         SUM(dhidden_0) OVER () AS db_0,         SUM(dhidden_1) OVER () AS db_1  FROM {inner subquery}

***，我們使用 W、B、W2 及 B2 各自的導(dǎo)數(shù)進行更新操作。計算公式是 param = learning_rate * d_param ，其中l(wèi)earning_rate 是參數(shù)。為了體現(xiàn) L2 正則化，我們會在計算 dW 和 dW2 時加入一個正則項 reg*weight。我們也去掉如 dw_00, correct_logprobs 等緩存的列，它們曾在子查詢時被創(chuàng)建，用于保存訓練數(shù)據(jù)(x1, x2 及 y 列) 和模型參數(shù)（權(quán)重和偏置項）。對應(yīng)的查詢語句如下：

SELECT x1,         x2,        y,         w_00 &mdash; (2.0)*(dw_00+(1e-3)*w_00) AS w_00,         w_01 &mdash; (2.0)*(dw_01+(1e-3)*w_01) AS w_01,         w_10 &mdash; (2.0)*(dw_10+(1e-3)*w_10) AS w_10,         w_11 &mdash; (2.0)*(dw_11+(1e-3)*w_11) AS w_11,         b_0 &mdash; (2.0)*db_0 AS b_0,         b_1 &mdash; (2.0)*db_1 AS b_1,        w2_00 &mdash; (2.0)*(dw2_00+(1e-3)*w2_00) AS w2_00,         w2_01 &mdash; (2.0)*(dw2_01+(1e-3)*w2_01) AS w2_01,        w2_10 &mdash; (2.0)*(dw2_10+(1e-3)*w2_10) AS w2_10,         w2_11 &mdash; (2.0)*(dw2_11+(1e-3)*w2_11) AS w2_11,         b2_0 &mdash; (2.0)*db2_0 AS b2_0,         b2_1 &mdash; (2.0)*db2_1 AS b2_1  FROM {inner subquery}

這包含了正向和反向傳播的一整個迭代過程。以上查詢語句將返回更新后的權(quán)重和偏置項。部分結(jié)果如下所示：

純SQL查詢語句如何實現(xiàn)神經(jīng)網(wǎng)絡(luò)

為了進行多次訓練迭代，我們將反復(fù)執(zhí)行上述過程。用一個簡單 Python 函數(shù)足以搞定，代碼鏈接如下：https://github.com/harisankarh/nn-sql-bq/blob/master/training.py。

因為迭代次數(shù)太多，查詢語句嵌套嚴重。執(zhí)行 10 次訓練迭代的查詢語句地址如下：

https://github.com/harisankarh/nn-sql-bq/blob/master/out.txt

因為查詢語句的多重嵌套和復(fù)雜度，在 BigQuery 中執(zhí)行查詢時多項系統(tǒng)資源告急。BigQuery 的標準 SQL 擴展的縮放性比傳統(tǒng) SQL 語言要好。即使是標準 SQL 查詢，對于有 100k 個實例的數(shù)據(jù)集，也很難執(zhí)行超過 10 個迭代。因為資源的限制，我們將會使用一個簡單的決策邊界來評估模型，如此一來，我們就可以在少量迭代后得到較好的準確率。

我們將使用一個簡單的數(shù)據(jù)集，其輸入 X1、X2 服從標準正態(tài)分布。二進制輸出 y 簡單判斷 x1 + x2 是否大于 0。為了更快的訓練完 10 個迭代，我們使用一個較大的學習率 2.0（注意：這么大的學習率并不推薦實際使用，可能會導(dǎo)致發(fā)散）。將上述語句執(zhí)行 10 個迭代得出的模型參數(shù)如下：

純SQL查詢語句如何實現(xiàn)神經(jīng)網(wǎng)絡(luò)

我們將使用 Bigquery 的函數(shù) save to table 把結(jié)果保存到一個新表。我們現(xiàn)在可以在訓練集上執(zhí)行一次推理來比較預(yù)測值和預(yù)期值的差距。查詢語句片段在以下鏈接中：

https://github.com/harisankarh/nn-sql-bq/blob/master/query_for_prediction.sql。

僅通過十個迭代，我們的準確率就可達 93%（測試集上也差不多）。

純SQL查詢語句如何實現(xiàn)神經(jīng)網(wǎng)絡(luò)

如果我們把迭代次數(shù)加到 100 次，準確率高達 99%。

優(yōu)化

下面是對本項目的總結(jié)。我們由此獲得了哪些啟發(fā)？如你所見，資源瓶頸決定了數(shù)據(jù)集的大小以及迭代執(zhí)行的次數(shù)。除了祈求谷歌開放資源上限，我們還有如下優(yōu)化手段來解決這個問題。

創(chuàng)建中間表和多個 SQL 語句有助于增加迭代數(shù)。例如，前 10 次迭代的結(jié)果可以存儲在一個中間表中。同一查詢語句在執(zhí)行下 10 次迭代時可以基于這個中間表。如此，我們就執(zhí)行了 20 個迭代。這個方法可以反復(fù)使用，以應(yīng)對更大的查詢迭代。

相比于在每一步增加外查詢，我們應(yīng)該盡可能的使用函數(shù)的嵌套。例如，在一個子查詢中，我們可以同時計算 scores 和 probs，而不應(yīng)使用 2 層嵌套查詢。

在上例中，所有的中間項都被保留直到***一個外查詢執(zhí)行。其中有些項如 correct_logprobs 可以早些刪除（盡管 SQL 引擎可能會自動的執(zhí)行這類優(yōu)化）。

多嘗試應(yīng)用用戶自定義的函數(shù)。如果感興趣，你可以看看這個 BigQuery 的用戶自定義函數(shù)的服務(wù)模型的項目（但是，無法使用 SQL 或者 UDFs 進行訓練）。

意義

現(xiàn)在，讓我們來看看基于深度學習的分布式 SQL 引擎的深層含義。 BigQuery、Presto 這類 SQL 倉庫引擎的一個局限性在于，查詢操作是在 CPU 而不是 GPU 上執(zhí)行的。研究 blazingdb 和 mapd 等基于 GPU 加速的數(shù)據(jù)庫查詢結(jié)果想必十分有趣。一個簡單的研究方法就是使用分布式 SQL 引擎執(zhí)行查詢和數(shù)據(jù)分布，并用 GPU 加速數(shù)據(jù)庫執(zhí)行本地計算。

退一步來看，我們已經(jīng)知道執(zhí)行分布式深度學習很難。分布式 SQL 引擎在數(shù)十年內(nèi)已經(jīng)有了大量的研究工作，并產(chǎn)出如今的查詢規(guī)劃、數(shù)據(jù)分區(qū)、操作歸置、檢查點設(shè)置、多查詢調(diào)度等技術(shù)。其中有些可以與分布式深度學習相結(jié)合。

關(guān)于純SQL查詢語句如何實現(xiàn)神經(jīng)網(wǎng)絡(luò)就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，可以學到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

向AI問一下細節(jié)

純SQL查詢語句如何實現(xiàn)神經(jīng)網(wǎng)絡(luò)

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標簽