怎么使用Python工具分析Web服務(wù)器日志文件

發(fā)布時(shí)間：2021-10-29 09:31:23 來源：億速云閱讀：239 作者：iii 欄目：編程語言

這篇文章主要講解了“怎么使用Python工具分析Web服務(wù)器日志文件”，文中的講解內(nèi)容簡單清晰，易于學(xué)習(xí)與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學(xué)習(xí)“怎么使用Python工具分析Web服務(wù)器日志文件”吧！

Lars 是 Python 寫的 Web 服務(wù)器日志工具包。這意味著你可以使用 Python 通過簡單的代碼來回溯（或?qū)崟r(shí)）解析日志，并對數(shù)據(jù)做任何你想做的事：將它存儲在數(shù)據(jù)庫中、另存為 CSV 文件，或者立即使用 Python 進(jìn)行更多分析。

Lars 是 Dave Jones 寫的另一個(gè)隱藏的寶石。我最初是在本地 Python 用戶組中看到 Dave 演示 lars。幾年后，我們開始在 piwheels 項(xiàng)目中使用它來讀取 Apache 日志并將行插入到我們的 Postgres 數(shù)據(jù)庫中。當(dāng)樹莓派用戶從 piwheels.org下載 Python 包時(shí)，我們會記錄文件名、時(shí)間戳、系統(tǒng)架構(gòu)（Arm 版本）、發(fā)行版名稱/版本，Python 版本等。由于它是一個(gè)關(guān)系數(shù)據(jù)庫，因此我們可以將這些結(jié)果加入其他表中以獲得有關(guān)文件的更多上下文信息。

你可以使用以下方法安裝lars：

$ pip install lars

在某些系統(tǒng)上，正確的方式是 sudo pip3 install lars。

首先，找到一個(gè) Web 訪問日志并制作一個(gè)副本。你需要將日志文件下載到計(jì)算機(jī)上進(jìn)行操作。我在示例中使用的是 Apache 日志，但是經(jīng)過一些?。ㄇ抑庇^）的更改，你可以使用 Nginx 或 IIS。在典型的 Web 服務(wù)器上，你會在 /var/log/apache2/ 中找到 Apache 日志，通常是 access.log、ssl_access.log（對于 HTTPS）或 gzip 壓縮后的輪轉(zhuǎn)日志文件，如 access-20200101.gz 或者 ssl_access-20200101.gz 。

首先，日志是什么樣的？

81.174.152.222 - - [30/Jun/2020:23:38:03 +0000] "GET / HTTP/1.1" 200 6763 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:77.0) Gecko/20100101 Firefox/77.0"

這是一個(gè)顯示了請求源 IP 地址、時(shí)間戳、請求文件路徑（在本例中是主頁 /）、HTTP 狀態(tài)代碼，用戶代理（Ubuntu 上的 Firefox）等的請求。

你的日志文件將充滿這樣的條目，不僅是每個(gè)打開的頁面，還包括返回的每個(gè)文件和資源：每個(gè) CSS 樣式表、JavaScript 文件和圖像，每個(gè) 404 請求、每個(gè)重定向、每個(gè)爬蟲。要從日志中獲取有意義的數(shù)據(jù)，你需要對條目進(jìn)行解析、過濾和排序。這就是 Lars 的用處。本示例將打開一個(gè)日志文件并打印每一行的內(nèi)容：

with open('ssl_access.log') as f:    with ApacheSource(f) as source:        for row in source:            print(row)

它會為每條日志顯示如下結(jié)果：

Row(remote_host=IPv4Address('81.174.152.222'), ident=None, remote_user=None, time=DateTime(2020, 6, 30, 23, 38, 3), request=Request(method='GET', url=Url(scheme='', netloc='', path_str='/', params='', query_str='', fragment=''), protocol='HTTP/1.1'), status=200, size=6763)

它解析了日志條目，并將數(shù)據(jù)放入結(jié)構(gòu)化格式中。該條目已成為具有與條目數(shù)據(jù)相關(guān)屬性的命名元組namedtuple，因此，例如，你可以使用 row.status 訪問狀態(tài)代碼，并使用 row.request.url.path_str 訪問路徑：

with open('ssl_access.log') as f:    with ApacheSource(f) as source:        for row in source:            print(f'hit {row.request.url.path_str} with status code {row.status}')

如果你只想顯示 404 請求，可以執(zhí)行以下操作：

with open('ssl_access.log') as f:    with ApacheSource(f) as source:        for row in source:            if row.status == 404:                print(row.request.url.path_str)

你可能要對這些數(shù)據(jù)去重，并打印獨(dú)立的 404 頁面數(shù)量：

s = set()with open('ssl_access.log') as f:    with ApacheSource(f) as source:        for row in source:            if row.status == 404:                s.add(row.request.url.path_str)print(len(s))

我和 Dave 一直在努力擴(kuò)展 piwheel 的日志記錄器，使其包含網(wǎng)頁點(diǎn)擊量、軟件包搜索等內(nèi)容，歸功于 lars，這些并不難。它不會告訴我們有關(guān)用戶的任何答案。我們?nèi)匀恍枰M(jìn)行數(shù)據(jù)分析，但它去掉了復(fù)雜不便的文件格式，并以我們可以利用的方式將它放入我們的數(shù)據(jù)庫。

感謝各位的閱讀，以上就是“怎么使用Python工具分析Web服務(wù)器日志文件”的內(nèi)容了，經(jīng)過本文的學(xué)習(xí)后，相信大家對怎么使用Python工具分析Web服務(wù)器日志文件這一問題有了更深刻的體會，具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云，小編將為大家推送更多相關(guān)知識點(diǎn)的文章，歡迎關(guān)注！

向AI問一下細(xì)節(jié)

怎么使用Python工具分析Web服務(wù)器日志文件

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽