<option id="tjntx"></option>

<mark id="tjntx"></mark>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

如何使用nginx lua實(shí)現(xiàn)網(wǎng)站統(tǒng)計(jì)中的數(shù)據(jù)收集

發(fā)布時(shí)間：2022-01-24 13:49:36 來源：億速云閱讀：151 作者：柒染欄目：開發(fā)技術(shù)

今天給大家介紹一下如何使用nginx lua實(shí)現(xiàn)網(wǎng)站統(tǒng)計(jì)中的數(shù)據(jù)收集。文章的內(nèi)容小編覺得不錯(cuò)，現(xiàn)在給大家分享一下，覺得有需要的朋友可以了解一下，希望對(duì)大家有所幫助，下面跟著小編的思路一起來閱讀吧。

各網(wǎng)站站長(zhǎng)和運(yùn)營人員經(jīng)常使用網(wǎng)站數(shù)據(jù)分析工具，谷歌分析、百度統(tǒng)計(jì)、騰訊分析等被廣泛使用，要想統(tǒng)計(jì)數(shù)據(jù)先要收集數(shù)據(jù)，下面和大家分析數(shù)據(jù)收集的原理，并搭建一個(gè)數(shù)據(jù)收集系統(tǒng)。

數(shù)據(jù)收集原理分析

簡(jiǎn)單來說，網(wǎng)站統(tǒng)計(jì)分析工具需要收集到用戶瀏覽目標(biāo)網(wǎng)站的行為（如打開某網(wǎng)頁、點(diǎn)擊某按鈕、將商品加入購物車等）及行為附加數(shù)據(jù)（如某下單行為產(chǎn)生的訂單金額等）。早期的網(wǎng)站統(tǒng)計(jì)往往只收集一種用戶行為：頁面的打開。而后用戶在頁面中的行為均無法收集。這種收集策略能滿足基本的流量分析、來源分析、內(nèi)容分析及訪客屬性等常用分析視角，但是，隨著ajax技術(shù)的廣泛使用及電子商務(wù)網(wǎng)站對(duì)于電子商務(wù)目標(biāo)的統(tǒng)計(jì)分析的需求越來越強(qiáng)烈，這種傳統(tǒng)的收集策略已經(jīng)顯得力不能及。
后來，Google在其產(chǎn)品谷歌分析中創(chuàng)新性的引入了可定制的數(shù)據(jù)收集腳本，用戶通過谷歌分析定義好的可擴(kuò)展接口，只需編寫少量的javascript代碼就可以實(shí)現(xiàn)自定義事件和自定義指標(biāo)的跟蹤和分析。目前百度統(tǒng)計(jì)、搜狗分析等產(chǎn)品均照搬了谷歌分析的模式。
其實(shí)說起來兩種數(shù)據(jù)收集模式的基本原理和流程是一致的，只是后一種通過javascript收集到了更多的信息。下面看一下現(xiàn)在各種網(wǎng)站統(tǒng)計(jì)工具的數(shù)據(jù)收集基本原理。

流程概覽

首先，用戶的行為會(huì)觸發(fā)瀏覽器對(duì)被統(tǒng)計(jì)頁面的一個(gè)http請(qǐng)求，這里姑且先認(rèn)為行為就是打開網(wǎng)頁。當(dāng)網(wǎng)頁被打開，頁面中的埋點(diǎn)javascript片段會(huì)被執(zhí)行，用過相關(guān)工具的朋友應(yīng)該知道，一般網(wǎng)站統(tǒng)計(jì)工具都會(huì)要求用戶在網(wǎng)頁中加入一小段javascript代碼，這個(gè)代碼片段一般會(huì)動(dòng)態(tài)創(chuàng)建一個(gè)script標(biāo)簽，并將src指向一個(gè)單獨(dú)的js文件，此時(shí)這個(gè)單獨(dú)的js文件（圖1中綠色節(jié)點(diǎn)）會(huì)被瀏覽器請(qǐng)求到并執(zhí)行，這個(gè)js往往就是真正的數(shù)據(jù)收集腳本。數(shù)據(jù)收集完成后，js會(huì)請(qǐng)求一個(gè)后端的數(shù)據(jù)收集腳本（圖1中的backend），這個(gè)腳本一般是一個(gè)偽裝成圖片的動(dòng)態(tài)腳本程序，可能由php、python或其它服務(wù)端語言編寫，js會(huì)將收集到的數(shù)據(jù)通過http參數(shù)的方式傳遞給后端腳本，后端腳本解析參數(shù)并按固定格式記錄到訪問日志，同時(shí)可能會(huì)在http響應(yīng)中給客戶端種植一些用于追蹤的cookie。
上面是一個(gè)數(shù)據(jù)收集的大概流程，下面以谷歌分析為例，對(duì)每一個(gè)階段進(jìn)行一個(gè)相對(duì)詳細(xì)的分析。

埋點(diǎn)腳本執(zhí)行階段

若要使用谷歌分析（以下簡(jiǎn)稱GA），需要在頁面中插入一段它提供的javascript片段，這個(gè)片段往往被稱為埋點(diǎn)代碼。

其中_gaq是GA的的全局?jǐn)?shù)組，用于放置各種配置，其中每一條配置的格式為：

_gaq.push([‘Action’, ‘param1’, ‘param2’, …]);

Action指定配置動(dòng)作，后面是相關(guān)的參數(shù)列表。GA給的默認(rèn)埋點(diǎn)代碼會(huì)給出兩條預(yù)置配置，_setAccount用于設(shè)置網(wǎng)站標(biāo)識(shí)ID，這個(gè)標(biāo)識(shí)ID是在注冊(cè)GA時(shí)分配的。_trackPageview告訴GA跟蹤一次頁面訪問。更多配置請(qǐng)參考：https://developers.google.com/analytics/devguides/collection/gajs/。實(shí)際上，這個(gè)_gaq是被當(dāng)做一個(gè)FIFO隊(duì)列來用的，配置代碼不必出現(xiàn)在埋點(diǎn)代碼之前，具體請(qǐng)參考上述鏈接的說明。
就本文來說，_gaq的機(jī)制不是重點(diǎn)，重點(diǎn)是后面匿名函數(shù)的代碼，這才是埋點(diǎn)代碼真正要做的。這段代碼的主要目的就是引入一個(gè)外部的js文件（ga.js），方式是通過document.createElement方法創(chuàng)建一個(gè)script并根據(jù)協(xié)議（http或https）將src指向?qū)?yīng)的ga.js，最后將這個(gè)element插入頁面的dom樹上。
注意ga.async = true的意思是異步調(diào)用外部js文件，即不阻塞瀏覽器的解析，待外部js下載完成后異步執(zhí)行。這個(gè)屬性是HTML5新引入的。

數(shù)據(jù)收集腳本執(zhí)行階段

數(shù)據(jù)收集腳本（ga.js）被請(qǐng)求后會(huì)被執(zhí)行，這個(gè)腳本一般要做如下幾件事：
1、通過瀏覽器內(nèi)置javascript對(duì)象收集信息，如頁面title（通過document.title）、referrer（上一跳url，通過document.referrer）、用戶顯示器分辨率（通過windows.screen）、cookie信息（通過document.cookie）等等一些信息。
2、解析_gaq收集配置信息。這里面可能會(huì)包括用戶自定義的事件跟蹤、業(yè)務(wù)數(shù)據(jù)（如電子商務(wù)網(wǎng)站的商品編號(hào)等）等。
3、將上面兩步收集的數(shù)據(jù)按預(yù)定義格式解析并拼接。
4、請(qǐng)求一個(gè)后端腳本，將信息放在http request參數(shù)中攜帶給后端腳本。
這里唯一的問題是步驟4，javascript請(qǐng)求后端腳本常用的方法是ajax，但是ajax是不能跨域請(qǐng)求的。這里ga.js在被統(tǒng)計(jì)網(wǎng)站的域內(nèi)執(zhí)行，而后端腳本在另外的域（GA的后端統(tǒng)計(jì)腳本是http://www.google-analytics.com/__utm.gif），ajax行不通。一種通用的方法是js腳本創(chuàng)建一個(gè)Image對(duì)象，將Image對(duì)象的src屬性指向后端腳本并攜帶參數(shù)，此時(shí)即實(shí)現(xiàn)了跨域請(qǐng)求后端。這也是后端腳本為什么通常偽裝成gif文件的原因。通過http抓包可以看到ga.js對(duì)__utm.gif的請(qǐng)求。

可以看到ga.js在請(qǐng)求__utm.gif時(shí)帶了很多信息，例如utmsr=1280×1024是屏幕分辨率，utmac=UA-35712773-1是_gaq中解析出的我的GA標(biāo)識(shí)ID等等。
值得注意的是，__utm.gif未必只會(huì)在埋點(diǎn)代碼執(zhí)行時(shí)被請(qǐng)求，如果用_trackEvent配置了事件跟蹤，則在事件發(fā)生時(shí)也會(huì)請(qǐng)求這個(gè)腳本。
由于ga.js經(jīng)過了壓縮和混淆，可讀性很差，我們就不分析了，具體后面實(shí)現(xiàn)階段我會(huì)實(shí)現(xiàn)一個(gè)功能類似的腳本。

后端腳本執(zhí)行階段

GA的__utm.gif是一個(gè)偽裝成gif的腳本。這種后端腳本一般要完成以下幾件事情：
1、解析http請(qǐng)求參數(shù)的到信息。
2、從服務(wù)器（WebServer）中獲取一些客戶端無法獲取的信息，如訪客ip等。
3、將信息按格式寫入log。
4、生成一副1×1的空gif圖片作為響應(yīng)內(nèi)容并將響應(yīng)頭的Content-type設(shè)為image/gif。
5、在響應(yīng)頭中通過Set-cookie設(shè)置一些需要的cookie信息。
之所以要設(shè)置cookie是因?yàn)槿绻櫸ㄒ辉L客，通常做法是如果在請(qǐng)求時(shí)發(fā)現(xiàn)客戶端沒有指定的跟蹤cookie，則根據(jù)規(guī)則生成一個(gè)全局唯一的cookie并種植給用戶，否則Set-cookie中放置獲取到的跟蹤cookie以保持同一用戶cookie不變（見圖4）。

這種做法雖然不是完美的（例如用戶清掉cookie或更換瀏覽器會(huì)被認(rèn)為是兩個(gè)用戶），但是是目前被廣泛使用的手段。注意，如果沒有跨站跟蹤同一用戶的需求，可以通過js將cookie種植在被統(tǒng)計(jì)站點(diǎn)的域下（GA是這么做的），如果要全網(wǎng)統(tǒng)一定位，則通過后端腳本種植在服務(wù)端域下（我們待會(huì)的實(shí)現(xiàn)會(huì)這么做）。

系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn)

根據(jù)上述原理，我自己搭建了一個(gè)訪問日志收集系統(tǒng)。
我將這個(gè)系統(tǒng)叫做MyAnalytics。

確定收集的信息

為了簡(jiǎn)單起見，我不打算實(shí)現(xiàn)GA的完整數(shù)據(jù)收集模型，而是收集信息。

埋點(diǎn)代碼

埋點(diǎn)代碼我將借鑒GA的模式，但是目前不會(huì)將配置對(duì)象作為一個(gè)FIFO隊(duì)列用。

我啟用了二級(jí)域名analytics.codinglabs.org，統(tǒng)計(jì)腳本的名稱為ma.js。當(dāng)然這里有一點(diǎn)小問題，因?yàn)槲也]有https的服務(wù)器，所以如果一個(gè)https站點(diǎn)部署了代碼會(huì)有問題，不過這里我們先忽略吧。

前端統(tǒng)計(jì)腳本

我寫了一個(gè)不是很完善但能完成基本工作的統(tǒng)計(jì)腳本ma.js：

    (function () {
    var params = {};
    //Document對(duì)象數(shù)據(jù)
    if(document) {
    params.domain = document.domain || '';
    params.url = document.URL || '';
    params.title = document.title || '';
    params.referrer = document.referrer || '';
    }
    //Window對(duì)象數(shù)據(jù)
    if(window && window.screen) {
    params.sh = window.screen.height || 0;
    params.sw = window.screen.width || 0;
    params.cd = window.screen.colorDepth || 0;
    }
    //navigator對(duì)象數(shù)據(jù)
    if(navigator) {
    params.lang = navigator.language || '';
    }
    //解析_maq配置
    if(_maq) {
    for(var i in _maq) {
    switch(_maq[i][0]) {
    case '_setAccount':
    params.account = _maq[i][1];
    break;
    default:
    break;
    }
    }
    }
    //拼接參數(shù)串
    var args = '';
    for(var i in params) {
    if(args != '') {
    args += '&';
    }
    args += i + '=' + encodeURIComponent(params[i]);
    }
    //通過Image對(duì)象請(qǐng)求后端腳本
    var img = new Image(1, 1);
    img.src = 'http://analytics.codinglabs.org/1.gif?' + args;
    })();

整個(gè)腳本放在匿名函數(shù)里，確保不會(huì)污染全局環(huán)境。功能在原理一節(jié)已經(jīng)說明，不再贅述。其中1.gif是后端腳本。

日志格式

日志采用每行一條記錄的方式，采用不可見字符^A（ascii碼0x01，Linux下可通過ctrl + v ctrl + a輸入，下文均用“^A”表示不可見字符0x01），具體格式如下：
時(shí)間^AIP^A域名^AURL^A頁面標(biāo)題^AReferrer^A分辨率高^A分辨率寬^A顏色深度^A語言^A客戶端信息^A用戶標(biāo)識(shí)^A網(wǎng)站標(biāo)識(shí)

后端腳本

為了簡(jiǎn)單和效率考慮，我打算直接使用nginx的access_log做日志收集，不過有個(gè)問題就是nginx配置本身的邏輯表達(dá)能力有限，所以我選用了OpenResty做這個(gè)事情。OpenResty是一個(gè)基于Nginx擴(kuò)展出的高性能應(yīng)用開發(fā)平臺(tái)，內(nèi)部集成了諸多有用的模塊，其中的核心是通過ngx_lua模塊集成了Lua，從而在nginx配置文件中可以通過Lua來表述業(yè)務(wù)。關(guān)于這個(gè)平臺(tái)我這里不做過多介紹，感興趣的同學(xué)可以參考其官方網(wǎng)站http://openresty.org/，或者這里有其作者章亦春（agentzh）做的一個(gè)非常有愛的介紹OpenResty的slide：http://agentzh.org/misc/slides/ngx-openresty-ecosystem/，關(guān)于ngx_lua可以參考：https://github.com/chaoslawful/lua-nginx-module。
首先，需要在nginx的配置文件中定義日志格式：
log_format tick “$msec^A$remote_addr^A$u_domain^A$u_url^A$u_title^A$u_referrer^A$u_sh^A$u_sw^A$u_cd^A$u_lang^A$http_user_agent^A$u_utrace^A$u_account”;
注意這里以u(píng)_開頭的是我們待會(huì)會(huì)自己定義的變量，其它的是nginx內(nèi)置變量。
然后是核心的兩個(gè)location：

    location /1.gif {
    #偽裝成gif文件
    default_type image/gif;
    #本身關(guān)閉access_log，通過subrequest記錄log
    access_log off;
    access_by_lua "
    -- 用戶跟蹤cookie名為__utrace
    local uid = ngx.var.cookie___utrace
    if not uid then
    -- 如果沒有則生成一個(gè)跟蹤cookie，算法為md5(時(shí)間戳+IP+客戶端信息)
    uid = ngx.md5(ngx.now() .. ngx.var.remote_addr .. ngx.var.http_user_agent)
    end
    ngx.header['Set-Cookie'] = {'__utrace=' .. uid .. '; path=/'}
    if ngx.var.arg_domain then
    -- 通過subrequest到/i-log記錄日志，將參數(shù)和用戶跟蹤cookie帶過去
    ngx.location.capture('/i-log?' .. ngx.var.args .. '&utrace=' .. uid)
    end
    ";
    #此請(qǐng)求不緩存
    add_header Expires "Fri, 01 Jan 1980 00:00:00 GMT";
    add_header Pragma "no-cache";
    add_header Cache-Control "no-cache, max-age=0, must-revalidate";
    #返回一個(gè)1&times;1的空gif圖片
    empty_gif;
    }
    location /i-log {
    #內(nèi)部location，不允許外部直接訪問
    internal;
    #設(shè)置變量，注意需要unescape
    set_unescape_uri $u_domain $arg_domain;
    set_unescape_uri $u_url $arg_url;
    set_unescape_uri $u_title $arg_title;
    set_unescape_uri $u_referrer $arg_referrer;
    set_unescape_uri $u_sh $arg_sh;
    set_unescape_uri $u_sw $arg_sw;
    set_unescape_uri $u_cd $arg_cd;
    set_unescape_uri $u_lang $arg_lang;
    set_unescape_uri $u_utrace $arg_utrace;
    set_unescape_uri $u_account $arg_account;
    #打開日志
    log_subrequest on;
    #記錄日志到ma.log，實(shí)際應(yīng)用中最好加buffer，格式為tick
    access_log /path/to/logs/directory/ma.log tick;
    #輸出空字符串
    echo '';
    }

要完全解釋這段腳本的每一個(gè)細(xì)節(jié)有點(diǎn)超出本文的范圍，而且用到了諸多第三方ngxin模塊（全都包含在OpenResty中了），重點(diǎn)的地方我都用注釋標(biāo)出來了，可以不用完全理解每一行的意義，只要大約知道這個(gè)配置完成了我們?cè)谠硪还?jié)提到的后端邏輯就可以了。

日志輪轉(zhuǎn)

真正的日志收集系統(tǒng)訪問日志會(huì)非常多，時(shí)間一長(zhǎng)文件變得很大，而且日志放在一個(gè)文件不便于管理。所以通常要按時(shí)間段將日志切分，例如每天或每小時(shí)切分一個(gè)日志。我這里為了效果明顯，每一小時(shí)切分一個(gè)日志。我是通過crontab定時(shí)調(diào)用一個(gè)shell腳本實(shí)現(xiàn)的，shell腳本如下：

    _prefix="/path/to/nginx"
    time=`date +%Y%m%d%H`
    mv ${_prefix}/logs/ma.log ${_prefix}/logs/ma/ma-${time}.log
    kill -USR1 `cat ${_prefix}/logs/nginx.pid`

這個(gè)腳本將ma.log移動(dòng)到指定文件夾并重命名為ma-{yyyymmddhh}.log，然后向nginx發(fā)送USR1信號(hào)令其重新打開日志文件。
然后再/etc/crontab里加入一行：

59 * * * * root /path/to/directory/rotatelog.sh

在每個(gè)小時(shí)的59分啟動(dòng)這個(gè)腳本進(jìn)行日志輪轉(zhuǎn)操作。

測(cè)試

下面可以測(cè)試這個(gè)系統(tǒng)是否能正常運(yùn)行了。我昨天就在我的博客中埋了相關(guān)的點(diǎn)，通過http抓包可以看到ma.js和1.gif已經(jīng)被正確請(qǐng)求。
同時(shí)可以看一下1.gif的請(qǐng)求參數(shù)。
相關(guān)信息確實(shí)也放在了請(qǐng)求參數(shù)中。
然后我tail打開日志文件，然后刷新一下頁面，因?yàn)闆]有設(shè)access log buffer，我立即得到了一條新日志：
1351060731.360^A0.0.0.0^Awww.codinglabs.org^Ahttp://www.codinglabs.org/^ACodingLabs^A^A1024^A1280^A24^Azh-CN^AMozilla/5.0 (Macintosh; Intel Mac OS X 10_8_2) AppleWebKit/537.4 (KHTML, like Gecko) Chrome/22.0.1229.94 Safari/537.4^A4d612be64366768d32e623d594e82678^AU-1-1
注意實(shí)際上原日志中的^A是不可見的，這里我用可見的^A替換為方便閱讀，另外IP由于涉及隱私我替換為了0.0.0.0。

關(guān)于分析

通過上面的分析和開發(fā)可以大致理解一個(gè)網(wǎng)站統(tǒng)計(jì)的日志收集系統(tǒng)是如何工作的。有了這些日志，就可以進(jìn)行后續(xù)的分析了。本文只注重日志收集，所以不會(huì)寫太多關(guān)于分析的東西。
注意，原始日志最好盡量多的保留信息而不要做過多過濾和處理。例如上面的MyAnalytics保留了毫秒級(jí)時(shí)間戳而不是格式化后的時(shí)間，時(shí)間的格式化是后面的系統(tǒng)做的事而不是日志收集系統(tǒng)的責(zé)任。后面的系統(tǒng)根據(jù)原始日志可以分析出很多東西，例如通過IP庫可以定位訪問者的地域、user agent中可以得到訪問者的操作系統(tǒng)、瀏覽器等信息，再結(jié)合復(fù)雜的分析模型，就可以做流量、來源、訪客、地域、路徑等分析了。當(dāng)然，一般不會(huì)直接對(duì)原始日志分析，而是會(huì)將其清洗格式化后轉(zhuǎn)存到其它地方，如MySQL或HBase中再做分析。
分析部分的工作有很多開源的基礎(chǔ)設(shè)施可以使用，例如實(shí)時(shí)分析可以使用Storm，而離線分析可以使用Hadoop。當(dāng)然，在日志比較小的情況下，也可以通過shell命令做一些簡(jiǎn)單的分析，例如，下面三條命令可以分別得出我的博客在今天上午8點(diǎn)到9點(diǎn)的訪問量（PV），訪客數(shù)（UV）和獨(dú)立IP數(shù)（IP）：

    awk -F^A '{print $1}' ma-2012102409.log | wc -l
    awk -F^A '{print $12}' ma-2012102409.log | uniq | wc -l
    awk -F^A '{print $2}' ma-2012102409.log | uniq | wc -l

以上就是如何使用nginx lua實(shí)現(xiàn)網(wǎng)站統(tǒng)計(jì)中的數(shù)據(jù)收集的全部?jī)?nèi)容了，更多與如何使用nginx lua實(shí)現(xiàn)網(wǎng)站統(tǒng)計(jì)中的數(shù)據(jù)收集相關(guān)的內(nèi)容可以搜索億速云之前的文章或者瀏覽下面的文章進(jìn)行學(xué)習(xí)哈！相信小編會(huì)給大家增添更多知識(shí),希望大家能夠支持一下億速云！

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Linux系統(tǒng)如何查看crontab日志
下一篇新聞：
Linux系統(tǒng)中如何查看java進(jìn)程和目錄命令

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<th id="ybzl6"><dd id="ybzl6"><track id="ybzl6"></track></dd></th><var id="ybzl6"></var>