溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

怎樣使用tensorflow和Keras

發(fā)布時(shí)間:2021-12-23 16:03:02 來(lái)源:億速云 閱讀:148 作者:柒染 欄目:大數(shù)據(jù)

今天就跟大家聊聊有關(guān)怎樣使用tensorflow和Keras,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。

介紹

人工神經(jīng)網(wǎng)絡(luò)(ANNs)是機(jī)器學(xué)習(xí)技術(shù)的高級(jí)版本,是深度學(xué)習(xí)的核心。人工神經(jīng)網(wǎng)絡(luò)涉及以下概念。輸入輸出層、隱藏層、隱藏層下的神經(jīng)元、正向傳播和反向傳播。

簡(jiǎn)單地說(shuō),輸入層是一組自變量,輸出層代表最終的輸出(因變量),隱藏層由神經(jīng)元組成,在那里應(yīng)用方程和激活函數(shù)。前向傳播討論方程的具體形式以獲得最終輸出,而反向傳播則計(jì)算梯度下降以相應(yīng)地更新參數(shù)。

深層神經(jīng)網(wǎng)絡(luò)

當(dāng)一個(gè)ANN包含一個(gè)很深的隱藏層時(shí),它被稱為深度神經(jīng)網(wǎng)絡(luò)(DNN)。DNN具有多個(gè)權(quán)重和偏差項(xiàng),每一個(gè)都需要訓(xùn)練。反向傳播可以確定如何調(diào)整所有神經(jīng)元的每個(gè)權(quán)重和每個(gè)偏差項(xiàng),以減少誤差。除非網(wǎng)絡(luò)收斂到最小誤差,否則該過(guò)程將重復(fù)。

算法步驟如下:

  • 得到訓(xùn)練和測(cè)試數(shù)據(jù)以訓(xùn)練和驗(yàn)證模型的輸出。所有涉及相關(guān)性、離群值處理的統(tǒng)計(jì)假設(shè)仍然有效,必須加以處理。

  • 輸入層由自變量及其各自的值組成。訓(xùn)練集分為多個(gè)batch。訓(xùn)練集完整的訓(xùn)練完稱為一個(gè)epoch。epoch越多,訓(xùn)練時(shí)間越長(zhǎng)

  • 每個(gè)batch被傳遞到輸入層,輸入層將其發(fā)送到第一個(gè)隱藏層。計(jì)算該層中所有神經(jīng)元的輸出(對(duì)于每一個(gè)小批量)。結(jié)果被傳遞到下一層,這個(gè)過(guò)程重復(fù),直到我們得到最后一層的輸出,即輸出層。這是前向傳播:就像做預(yù)測(cè)一樣,除了所有中間結(jié)果都會(huì)被保留,因?yàn)樗鼈兪欠聪騻鞑ニ枰?/p>

  • 然后使用損失函數(shù)測(cè)量網(wǎng)絡(luò)的輸出誤差,該函數(shù)將期望輸出與網(wǎng)絡(luò)的實(shí)際輸出進(jìn)行比較

  • 計(jì)算了每個(gè)參數(shù)對(duì)誤差項(xiàng)的貢獻(xiàn)

  • 該算法根據(jù)學(xué)習(xí)速率(反向傳播)執(zhí)行梯度下降來(lái)調(diào)整權(quán)重和參數(shù),并且該過(guò)程會(huì)重復(fù)進(jìn)行

重要的是隨機(jī)初始化所有隱藏層的權(quán)重,否則訓(xùn)練將失敗。

例如,如果將所有權(quán)重和偏移初始化為零,則給定層中的所有神經(jīng)元將完全相同,因此反向傳播將以完全相同的方式影響它們,因此它們將保持相同。換句話說(shuō),盡管每層有數(shù)百個(gè)神經(jīng)元,但你的模型將表現(xiàn)得好像每層只有一個(gè)神經(jīng)元:它不會(huì)太聰明。相反,如果你隨機(jī)初始化權(quán)重,你就打破了對(duì)稱性,允許反向傳播來(lái)訓(xùn)練不同的神經(jīng)元

激活函數(shù)

激活函數(shù)是梯度下降的關(guān)鍵。梯度下降不能在平面上移動(dòng),因此有一個(gè)定義良好的非零導(dǎo)數(shù)是很重要的,以使梯度下降在每一步都取得進(jìn)展。Sigmoid通常用于logistic回歸問(wèn)題,但是,也有其他流行的選擇。

雙曲正切函數(shù)

這個(gè)函數(shù)是S形的,連續(xù)的,輸出范圍在-1到+1之間。在訓(xùn)練開(kāi)始時(shí),每一層的輸出或多或少都以0為中心,因此有助于更快地收斂。

整流線性單元

對(duì)于小于0的輸入,它是不可微的。對(duì)于其他情況,它產(chǎn)生良好的輸出,更重要的是具有更快的計(jì)算速度。函數(shù)沒(méi)有最大輸出,因此在梯度下降過(guò)程中可能出現(xiàn)的一些問(wèn)題得到了很好的處理。

為什么我們需要激活函數(shù)?

假設(shè)f(x)=2x+5和g(x)=3x-1。兩個(gè)輸入項(xiàng)的權(quán)重是不同的。在鏈接這些函數(shù)時(shí),我們得到的是,f(g(x))=2(3x-1)+5=6x+3,這又是一個(gè)線性方程。非線性的缺失表現(xiàn)為深層神經(jīng)網(wǎng)絡(luò)中等價(jià)于一個(gè)線性方程。這種情況下的復(fù)雜問(wèn)題空間無(wú)法處理。

怎樣使用tensorflow和Keras

損失函數(shù)

在處理回歸問(wèn)題時(shí),我們不需要為輸出層使用任何激活函數(shù)。在訓(xùn)練回歸問(wèn)題時(shí)使用的損失函數(shù)是均方誤差。然而,訓(xùn)練集中的異常值可以用平均絕對(duì)誤差來(lái)處理。Huber損失也是基于回歸的任務(wù)中廣泛使用的誤差函數(shù)。

當(dāng)誤差小于閾值t(大多為1)時(shí),Huber損失是二次的,但當(dāng)誤差大于t時(shí),Huber損失是線性的。與均方誤差相比,線性部分使其對(duì)異常值不太敏感,并且二次部分比平均絕對(duì)誤差更快地收斂和更精確的數(shù)字。

分類問(wèn)題通常使用二分類交叉熵、多分類交叉熵或稀疏分類交叉熵。二分類交叉熵用于二分類,而多分類或稀疏分類交叉熵用于多類分類問(wèn)題。你可以在下面的鏈接中找到有關(guān)損失函數(shù)的更多詳細(xì)信息。

注:分類交叉熵用于因變量的one-hot表示,當(dāng)標(biāo)簽作為整數(shù)提供時(shí),使用稀疏分類交叉熵。

https://keras.io/api/losses/

用Python開(kāi)發(fā)ANN

我們將使用Kaggle的信用數(shù)據(jù)開(kāi)發(fā)一個(gè)使用Jupyter Notebook的欺詐檢測(cè)模型。同樣的方法也可以在google colab中實(shí)現(xiàn)。

數(shù)據(jù)集包含2013年9月歐洲持卡人通過(guò)信用卡進(jìn)行的交易。此數(shù)據(jù)集顯示兩天內(nèi)發(fā)生的交易,其中284807筆交易中有492宗欺詐。數(shù)據(jù)集高度不平衡,正類(欺詐)占所有交易的0.172%。

https://www.kaggle.com/mlg-ulb/creditcardfraud

import tensorflow as tf
print(tf.__version__)

import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
import tensorflow as tf

from sklearn import preprocessing

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, BatchNormalization

from sklearn.metrics import accuracy_score, confusion_matrix, precision_score, recall_score, f1_score, precision_recall_curve, auc

import matplotlib.pyplot as plt
from tensorflow.keras import optimizers

import seaborn as sns

from tensorflow import keras

import random as rn

import os
os.environ["CUDA_VISIBLE_DEVICES"] = "3"
PYTHONHASHSEED=0

tf.random.set_seed(1234)
np.random.seed(1234)
rn.seed(1254)

數(shù)據(jù)集由以下屬性組成。時(shí)間、主要成分、金額和類別。更多信息請(qǐng)?jiān)L問(wèn)Kaggle網(wǎng)站。

file = tf.keras.utils
raw_df = pd.read_csv(‘https://storage.googleapis.com/download.tensorflow.org/data/creditcard.csv')
raw_df.head()

由于大多數(shù)屬性都是主成分,所以相關(guān)性總是0。唯一可能出現(xiàn)異常值的列是amount。下面簡(jiǎn)要介紹一下這方面的統(tǒng)計(jì)數(shù)據(jù)。

count    284807.00
mean         88.35
std         250.12
min           0.00
25%           5.60
50%          22.00
75%          77.16
max       25691.16
Name: Amount, dtype: float64

怎樣使用tensorflow和Keras

異常值對(duì)于檢測(cè)欺詐行為至關(guān)重要,因?yàn)榛炯僭O(shè)是,較高的交易量可能是欺詐活動(dòng)的跡象。然而,箱線圖并沒(méi)有揭示任何具體的趨勢(shì)來(lái)驗(yàn)證上述假設(shè)。

怎樣使用tensorflow和Keras

準(zhǔn)備輸入輸出和訓(xùn)練測(cè)試數(shù)據(jù)
X_data = credit_data.iloc[:, :-1]

y_data = credit_data.iloc[:, -1]

X_train, X_test, y_train, y_test = train_test_split(X_data, y_data, test_size = 0.2, random_state = 7)

X_train = preprocessing.normalize(X_train)

數(shù)量和主成分分析變量使用不同的尺度,因此數(shù)據(jù)集是標(biāo)準(zhǔn)化的。標(biāo)準(zhǔn)化在梯度下降中起著重要作用。標(biāo)準(zhǔn)化數(shù)據(jù)的收斂速度要快得多。

print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

輸出:

(227845, 29) #記錄數(shù)x列數(shù)
(56962, 29)
(227845,)
(56962,)
開(kāi)發(fā)神經(jīng)網(wǎng)絡(luò)層

上面的輸出表明我們有29個(gè)自變量要處理,因此輸入層的形狀是29。任何人工神經(jīng)網(wǎng)絡(luò)架構(gòu)的一般結(jié)構(gòu)概述如下。

+----------------------------+----------------------------+
 |      Hyper Parameter       |   Binary Classification    |
 +----------------------------+----------------------------+
 | # input neurons            | One per input feature      |
 | # hidden layers            | Typically 1 to 5           |
 | # neurons per hidden layer | Typically 10 to 100        |
 | # output neurons           | 1 per prediction dimension |
 | Hidden activation          | ReLU, Tanh, sigmoid        |
 | Output layer activation    | Sigmoid                    |
 | Loss function              | Binary Cross Entropy       |
 +----------------------------+----------------------------+
+-----------------------------------+----------------------------+
 |          Hyper Parameter          | Multiclass Classification  |
 +-----------------------------------+----------------------------+
 | # input neurons                   | One per input feature      |
 | # hidden layers                   | Typically 1 to 5           |
 | # neurons per hidden layer        | Typically 10 to 100        |
 | # output neurons                  | 1 per prediction dimension |
 | Hidden activation                 | ReLU, Tanh, sigmoid        |
 | Output layer activation           | Softmax                    |
 | Loss function                     | "Categorical Cross Entropy |
 | Sparse Categorical Cross Entropy" |                            |
 +-----------------------------------+----------------------------+
Dense函數(shù)的輸入
  1. units — 輸出尺寸

  2. activation — 激活函數(shù),如果未指定,則不使用任何內(nèi)容

  3. use_bias — 布爾值,如果使用偏置項(xiàng)

  4. kernel_initializer — 核權(quán)重的初始值設(shè)定項(xiàng)

  5. bias_initializer —偏置向量的初始值設(shè)定項(xiàng)。

model = Sequential(layers=None, name=None)
model.add(Dense(10, input_shape = (29,), activation = 'tanh'))
model.add(Dense(5, activation = 'tanh'))
model.add(Dense(1, activation = 'sigmoid'))

sgd = optimizers.Adam(lr = 0.001)

model.compile(optimizer = sgd, loss = 'binary_crossentropy', metrics=['accuracy'])
體系結(jié)構(gòu)摘要
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
dense (Dense)                (None, 10)                300       
_________________________________________________________________
dense_1 (Dense)              (None, 5)                 55        
_________________________________________________________________
dense_2 (Dense)              (None, 1)                 6         
=================================================================
Total params: 361
Trainable params: 361
Non-trainable params: 0
_________________________________________________________________
讓我們?cè)囍斫馍厦娴妮敵?輸出說(shuō)明使用兩個(gè)隱藏層提供):
  1. 我們創(chuàng)建了一個(gè)具有一個(gè)輸入、兩個(gè)隱藏和一個(gè)輸出層的神經(jīng)網(wǎng)絡(luò)

  2. 輸入層有29個(gè)變量和10個(gè)神經(jīng)元。所以權(quán)重矩陣的形狀是10 x 29,而偏置矩陣的形狀是10 x 1

  3. 第1層參數(shù)總數(shù)=10 x 29+10 x 1=300

  4. 第一層有10個(gè)輸出值,使用tanh作為激活函數(shù)。第二層有5個(gè)神經(jīng)元和10個(gè)輸入,因此權(quán)重矩陣為5×10,偏置矩陣為5×1

  5. 第2層總參數(shù)=5 x 10+5 x 1=55

  6. 最后,輸出層有一個(gè)神經(jīng)元,但是它有5個(gè)不同于隱藏層2的輸入,并且有一個(gè)偏置項(xiàng),因此神經(jīng)元的數(shù)量=5+1=6

model.fit(X_train, y_train.values, batch_size = 2000, epochs = 20, verbose = 1)
Epoch 1/20
114/114 [==============================] - 0s 2ms/step - loss: 0.3434 - accuracy: 0.9847
Epoch 2/20
114/114 [==============================] - 0s 2ms/step - loss: 0.1029 - accuracy: 0.9981
Epoch 3/20
114/114 [==============================] - 0s 2ms/step - loss: 0.0518 - accuracy: 0.9983
Epoch 4/20
114/114 [==============================] - 0s 2ms/step - loss: 0.0341 - accuracy: 0.9986
Epoch 5/20
114/114 [==============================] - 0s 2ms/step - loss: 0.0255 - accuracy: 0.9987
Epoch 6/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0206 - accuracy: 0.9988
Epoch 7/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0174 - accuracy: 0.9988
Epoch 8/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0152 - accuracy: 0.9988
Epoch 9/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0137 - accuracy: 0.9989
Epoch 10/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0125 - accuracy: 0.9989
Epoch 11/20
114/114 [==============================] - 0s 2ms/step - loss: 0.0117 - accuracy: 0.9989
Epoch 12/20
114/114 [==============================] - 0s 2ms/step - loss: 0.0110 - accuracy: 0.9989
Epoch 13/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0104 - accuracy: 0.9989
Epoch 14/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0099 - accuracy: 0.9989
Epoch 15/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0095 - accuracy: 0.9989
Epoch 16/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0092 - accuracy: 0.9989
Epoch 17/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0089 - accuracy: 0.9989
Epoch 18/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0087 - accuracy: 0.9989
Epoch 19/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0084 - accuracy: 0.9989
Epoch 20/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0082 - accuracy: 0.9989
評(píng)估輸出
X_test = preprocessing.normalize(X_test)

results = model.evaluate(X_test, y_test.values)

1781/1781 [==============================] - 1s 614us/step - loss: 0.0086 - accuracy: 0.9989
用Tensor Board分析學(xué)習(xí)曲線

TensorBoard是一個(gè)很好的交互式可視化工具,可用于查看訓(xùn)練期間的學(xué)習(xí)曲線、比較多個(gè)運(yùn)行的學(xué)習(xí)曲線、分析訓(xùn)練指標(biāo)等。此工具隨TensorFlow自動(dòng)安裝。

import os
root_logdir = os.path.join(os.curdir, “my_logs”)

def get_run_logdir():
 import time
 run_id = time.strftime(“run_%Y_%m_%d-%H_%M_%S”)
 return os.path.join(root_logdir, run_id)
 
run_logdir = get_run_logdir()

tensorboard_cb = keras.callbacks.TensorBoard(run_logdir)

model.fit(X_train, y_train.values, batch_size = 2000, epochs = 20, verbose = 1, callbacks=[tensorboard_cb])

%load_ext tensorboard
%tensorboard --logdir=./my_logs --port=6006

怎樣使用tensorflow和Keras

超參調(diào)節(jié)

如前所述,對(duì)于一個(gè)問(wèn)題空間,有多少隱藏層或多少神經(jīng)元最適合,并沒(méi)有預(yù)定義的規(guī)則。我們可以使用隨機(jī)化searchcv或GridSearchCV來(lái)超調(diào)一些參數(shù)??晌⒄{(diào)的參數(shù)概述如下:

  • 隱藏層數(shù)

  • 隱藏層神經(jīng)元

  • 優(yōu)化器

  • 學(xué)習(xí)率

  • epoch

聲明函數(shù)以開(kāi)發(fā)模型

def build_model(n_hidden_layer=1, n_neurons=10, input_shape=29):
    
    # 創(chuàng)建模型
    model = Sequential()
    model.add(Dense(10, input_shape = (29,), activation = 'tanh'))
for layer in range(n_hidden_layer):
        model.add(Dense(n_neurons, activation="tanh"))
model.add(Dense(1, activation = 'sigmoid'))
    
    # 編譯模型
model.compile(optimizer ='Adam', loss = 'binary_crossentropy', metrics=['accuracy'])
    
    return model

使用包裝類克隆模型

from sklearn.base import clone
 
keras_class = tf.keras.wrappers.scikit_learn.KerasClassifier(build_fn = build_model,nb_epoch = 100,
 batch_size=10)
clone(keras_class)

keras_class.fit(X_train, y_train.values)

創(chuàng)建隨機(jī)搜索網(wǎng)格

from scipy.stats import reciprocal
from sklearn.model_selection import RandomizedSearchCV

param_distribs = {
 “n_hidden_layer”: [1, 2, 3],
 “n_neurons”: [20, 30],
# “l(fā)earning_rate”: reciprocal(3e-4, 3e-2),
# “opt”:[‘Adam’]
}

rnd_search_cv = RandomizedSearchCV(keras_class, param_distribs, n_iter=10, cv=3)

rnd_search_cv.fit(X_train, y_train.values, epochs=5)

檢查最佳參數(shù)

rnd_search_cv.best_params_

{'n_neurons': 30, 'n_hidden_layer': 3}

rnd_search_cv.best_score_

model = rnd_search_cv.best_estimator_.model

優(yōu)化器也應(yīng)該微調(diào),因?yàn)樗鼈冇绊懱荻认陆?、收斂和學(xué)習(xí)速率的自動(dòng)調(diào)整。

  • Adadelta -Adadelta是Adagrad的一個(gè)更健壯的擴(kuò)展,它基于梯度更新的移動(dòng)窗口來(lái)調(diào)整學(xué)習(xí)速率,而不是累積所有過(guò)去的梯度

  • 隨機(jī)梯度下降-常用。需要使用搜索網(wǎng)格微調(diào)學(xué)習(xí)率

  • Adagrad-對(duì)于所有參數(shù)和其他優(yōu)化器的每個(gè)周期,學(xué)習(xí)速率都是恒定的。然而,Adagrad在處理誤差函數(shù)導(dǎo)數(shù)時(shí),會(huì)改變每個(gè)參數(shù)的學(xué)習(xí)速率“η”,并在每個(gè)時(shí)間步長(zhǎng)“t”處改變

  • ADAM-ADAM(自適應(yīng)矩估計(jì))利用一階和二階動(dòng)量來(lái)防止跳越局部極小值,保持了過(guò)去梯度的指數(shù)衰減平均值

怎樣使用tensorflow和Keras

一般來(lái)說(shuō),通過(guò)增加層的數(shù)量而不是每層神經(jīng)元的數(shù)量,可以獲得更好的輸出。

看完上述內(nèi)容,你們對(duì)怎樣使用tensorflow和Keras有進(jìn)一步的了解嗎?如果還想了解更多知識(shí)或者相關(guān)內(nèi)容,請(qǐng)關(guān)注億速云行業(yè)資訊頻道,感謝大家的支持。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI