您好,登錄后才能下訂單哦!
本篇內(nèi)容主要講解“怎么在MaxCompute上分析IP來源”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“怎么在MaxCompute上分析IP來源”吧!
淘寶IP地址庫官網(wǎng)地址 http://ip.taobao.com/ ,其查詢接口[ http://ip.taobao.com/service/getIpInfo.php?ip=[ip 地址字串]]( http://ip.taobao.com/service/getIpInfo.php?ip=[ip 地址字串]),如下所示:
cdn.nlark.com/lark/0/2018/png/26173/1541753257262-66a9ae70-e251-48ba-a9ee-72cf4b7fd581.png">
但是在MaxCompute中禁止使用http請求,那么如何實現(xiàn)在MaxCompute中進行IP的查詢?
目前有三種方式:
用SQL將數(shù)據(jù)查詢到本地,再發(fā)起http請求查詢。-->效率低下,且淘寶IP庫查詢頻率需小于10qps,否則拒絕請求。
下載IP地址庫到本地,進行查詢。-->同樣效率低,且不利于數(shù)倉等分析使用。
將IP地址庫定期維護上傳至MaxCompute,進行連接查詢。-->比較高效,但是IP地址庫需自己定期維護。
① IP地址庫下載, http://ip.taobao.org:9999/ipdata_download.html 下載需要的格式數(shù)據(jù)。本文以[基本數(shù)據(jù)格式]為例。
②下載UTF-8數(shù)據(jù),打開看看數(shù)據(jù)格式。
前四個數(shù)據(jù)是IP地址的起始地址與結(jié)束地址,前兩個是十進制整數(shù)形式,后兩個是點分形式。這里我們使用整數(shù)形式,以便計算IP是否屬于這個網(wǎng)段。
①創(chuàng)建表DDL:
DROP TABLE IF EXISTS ipresource ;CREATE TABLE IF NOT EXISTS ipresource ( start_ip BIGINT ,end_ip BIGINT ,start_ip_arg string ,end_ip_arg string ,country STRING ,area STRING ,city STRING ,county STRING ,isp STRING) ;
②使用Tunnel上傳文件(文件>10MB需要使用 Tunnel upload命令 )
odps@ workshop_demo>tunnel upload ipdata.txt.utf8 ipresource;
可以通過SQL查看到表中共計上傳2369306條數(shù)據(jù)。
③查看ipresource表樣本數(shù)據(jù)。
通過編寫Python UDF將點號分割的IP地址轉(zhuǎn)化為int類型的IP。詳細如下:
①添加Python 資源。
②編寫Python資源代碼。
from odps.udf import annotate@annotate("string->bigint")class ipint(object): def evaluate(self, ip): try: return reduce(lambda x, y: (x << 8) + y, map(int, ip.split('.'))) except: return 0
點擊提交并解鎖。
③新建自定義函數(shù):
提交并解鎖:
④驗證ipint函數(shù)是否生效并滿足預期值。
以具體IP地址為例,在正常情況會以具體表的字段來讀進來。
保證數(shù)據(jù)準確性可以定期從淘寶IP庫獲取數(shù)據(jù)來維護ipresource這個表。
到此,相信大家對“怎么在MaxCompute上分析IP來源”有了更深的了解,不妨來實際操作一番吧!這里是億速云網(wǎng)站,更多相關內(nèi)容可以進入相關頻道進行查詢,關注我們,繼續(xù)學習!
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。