Google分析language垃圾信息

發(fā)布時間：2020-07-30 17:04:44 來源：網(wǎng)絡(luò) 閱讀：212 作者：鄒君安欄目：網(wǎng)絡(luò)安全

最近一段時間，我在Google Analytics（以下簡稱GA）中查看網(wǎng)站數(shù)據(jù)時，發(fā)現(xiàn)一個非?？梢傻男畔ⅲ?/p>

這什么鬼？

“l(fā)anguage”這一項一般是 “zh-tw”, “zh-cn”, “en-us”, “es”, “fr”等，它是由用戶瀏覽器設(shè)定的。但用戶瀏覽器不可能把語言項設(shè)置為這些：

Secret.oogle.com You are invited! Enter only with this ticket URL. Copy it. Vote for Trump!
o-o-8-o-o.com search shell is much better than google!
Vitaly rules google ☆:゜ヽ(^^)゜:☆ ˉ_(ツ)/ˉ(益)()()()( ° °)ヽ(Д) (=^ ^=)oO
Congratulations to Trump and all americans

分析請求

很明顯，這是一種新的 spam（垃圾信息），希望吸引目標人群（可能就是我們這樣的網(wǎng)絡(luò)管理員）的注意力。

仔細地觀察這些請求，會發(fā)現(xiàn)幾個特點：

請求數(shù)有明顯的波峰，在幾天內(nèi)會達到高峰，然后又降下去
New Sessions 的比例非常高，達到了86%以上

分析其它受***的欄目

仔細查看 GA 統(tǒng)計項目的這些請求，發(fā)現(xiàn) referrer 一欄也比較可疑地出現(xiàn)了這些：

motherboard.vice.com addons.mozilla.org webmasters.stackexchange.com blackhatworld.com thenextweb.com abc.xyz lifehacer.com ...

這其中有一些非常正規(guī)的域名。比如abc.xyz是Google的母公司alphabet的官網(wǎng)，thenextweb.com也是一個開發(fā)者媒體。

這些網(wǎng)站本身沒有問題，但其實該網(wǎng)站上并沒有任何一個鏈接指向我的博客，更談不上我的訪客“來自”（referral）該網(wǎng)站了。當我訪問回去，發(fā)現(xiàn)并沒有實際上的鏈接，只是廣告，倒也罷了，更可怕的是可能會有釣魚、病毒等。

綜上，這是一波二維***（假的語言項和假的 referral 項），目的是吸引你的注意力。

分析***怎么產(chǎn)生的

總的來說，這種垃圾信息有兩種***方式。一種是真正會訪問你的網(wǎng)站的網(wǎng)絡(luò)爬蟲；另一種是不訪問你的網(wǎng)站，而是將假冒的“點擊”事件直接發(fā)送到GA服務(wù)器。事實上，第二種***方式由于成本低，因而更加常見。

GA 的統(tǒng)計邏輯是，當用戶訪問你的網(wǎng)站，會在前端運行一段 JavaScript 代碼，然后把用戶的一些訪問情況通過 HTTP 請求發(fā)送給 GA 服務(wù)器，告訴 GA 發(fā)生了一次“訪問”。而這個 HTTP 請求可以很容易地被偽造，所以垃圾信息發(fā)送者無需真的訪問你的站點，它直接發(fā)送大量 HTTP 請求即可達到目的。

除了 HTTP 請求，GA 還支持更方便的Measurement Protocol ，開發(fā)者可以發(fā)送一個原始數(shù)據(jù)（raw data）給GA，來一次性傳輸大量用戶行為。這個協(xié)議的初衷是讓開發(fā)者可以統(tǒng)計所有環(huán)境下的用戶行為，比如開發(fā)者可以將離線狀態(tài)下的用戶行為記錄下來，當在線時一次性發(fā)送。或者當內(nèi)網(wǎng)不支持外部訪問時，先記錄下用戶行為，隨后再定時一次性發(fā)送到 GA。

初衷是好的，不幸的是，這個過程仍然是無需認證身份，所以更方便了垃圾信息發(fā)送者。垃圾信息發(fā)送者可以通過一次請求即發(fā)送大量假數(shù)據(jù)，他只需要得到你的 UA-ID（UA-XXXXXXX-XX）即可。

在這個原始數(shù)據(jù)包中，一切皆可偽造。Hostname？沒問題！Referral？全改了！URL path？當然也可以改……

如何避免

對網(wǎng)站主來說，這種垃圾信息有幾點危害：1、浪費時間，就像傳統(tǒng)垃圾郵件一樣。2、干擾 GA 狀態(tài)欄，特別是如果網(wǎng)站流量不是很大（比如我）。3、傳播病毒。

所以，有沒有完美的解決方法呢？實際上，沒有。

要知道，數(shù)據(jù)一旦錄入到 GA，就沒有辦法刪掉了。能做的只有兩件事，一是阻止垃圾信息進一步加入到 GA，二是在視圖中過濾掉已經(jīng)添加進來的垃圾信息，眼不見為凈。

第一步：使用過濾器阻止未來的垃圾信息

在語言項中，一般字符數(shù)是5-6個，很少有超過10個的，所以我們可以認為語言項超過15個字符的就一定是垃圾信息。

此外，有一些字符是不可能出現(xiàn)在合法的語言項中，但垃圾信息會利用這些字符來組成URL，比如： “secret google com”, “secret,google,com”, “secret!google!com”，所以我們也一并排除空格、點號、逗號、驚嘆號。

.{15,}|\s[^\s]*\s|\.|,|\!|\/

在admin中選擇Filter，然后新增一個如圖所示的過濾器即可。

設(shè)置好了之后，可以驗證一下是否會攔截掉我們想攔截的內(nèi)容：

沒有問題，未來的語言項垃圾信息會直接被攔截掉。

第二步：通過Segment凈化已有數(shù)據(jù)

過濾器從你開始設(shè)置時生效，而歷史信息無法修改。不過 GA 提供了 custom segment 功能，在生成報告時，選擇性過濾掉一些數(shù)據(jù)。

Segment 就是數(shù)據(jù)片段，指的是在完整的數(shù)據(jù)中取出我們需要的片段進行分析。比如我們可以單獨取出24歲以下的用戶的行為，對比24歲以上的用戶行為有何不同。而這個功能正好可以讓我們把“語言”不規(guī)范的數(shù)據(jù)過濾掉。

如下圖，在All Users的旁邊有一個 + Add Segment 的按鈕，點擊之后就可以配置我們的 segment。

一定要注意是選擇“does not match regex”，里面填上之前的正則。

創(chuàng)建好了新的 segment 之后，就會看到過濾之后的全新報告。

下次再進入時，又會默認進入到 All Users 視圖，這時可以在 All Users 里的 custom 里找到我們的自定義 segment，勾選即可。

如果經(jīng)常需要查看這個 segment，推薦點擊 shortcut 來新增快捷方式。

它會保存當前的 segment 和排序等，下一次可以直接從 Short 項目進入到這個快捷目錄。

以上就是完整的過濾方法了，這樣應(yīng)該可以過濾掉大部分語言spam的***。GA提供的 filter 和 segment 的功能很強大，如果后續(xù)發(fā)現(xiàn)有新的垃圾信息，可以繼續(xù)通過今天學習的方法來更新完善我們的過濾器。

向AI問一下細節(jié)

Google分析language垃圾信息

分析請求

分析其它受***的欄目

分析***怎么產(chǎn)生的

如何避免

第一步：使用過濾器阻止未來的垃圾信息

第二步：通過Segment凈化已有數(shù)據(jù)

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標簽