您好,登錄后才能下訂單哦!
這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)?lái)有關(guān)python爬蟲如何使用json庫(kù),文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
實(shí)際應(yīng)用中爬取到的信息肯定是需要保存到本地的。保存信息的方式有數(shù)據(jù)庫(kù)和文件的形式,數(shù)據(jù)庫(kù)我們后面再講,現(xiàn)在讓我們先看看怎么把信息保存到文件里。
這里我們主要講講 將數(shù)據(jù)保存為 json格式和 csv格式,這就要用到兩個(gè)庫(kù) json庫(kù)和 csv庫(kù),這兩個(gè)庫(kù)都是 python自帶的庫(kù)。
關(guān)于數(shù)據(jù)存儲(chǔ)我們分兩篇來(lái)講,這一篇先講 json,下一篇再講 csv。
一、關(guān)于 json
json的簡(jiǎn)介直接引用百度百科的定義:
JSON(JavaScript Object Notation, JS 對(duì)象簡(jiǎn)譜) 是一種輕量級(jí)的數(shù)據(jù)交換格式。它基于 ECMAScript (歐洲計(jì)算機(jī)協(xié)會(huì)制定的js規(guī)范)的一個(gè)子集,采用完全獨(dú)立于編程語(yǔ)言的文本格式來(lái)存儲(chǔ)和表示數(shù)據(jù)。簡(jiǎn)潔和清晰的層次結(jié)構(gòu)使得 JSON 成為理想的數(shù)據(jù)交換語(yǔ)言。 易于人閱讀和編寫,同時(shí)也易于機(jī)器解析和生成,并有效地提升網(wǎng)絡(luò)傳輸效率。
實(shí)際上 json的格式和 python中的字典很像,也是由鍵值對(duì)組成,但是 python中的值可以為任何對(duì)象(列表、字典、字符串、數(shù)字等等),而 json中的值只能是數(shù)組(列表)、字典、字符串、數(shù)組、布爾值中的一中或幾種。
其格式就像下面這樣:
注意:json中的引號(hào)必須是雙引號(hào),否則會(huì)報(bào)錯(cuò)
{ "key1": "value1", "key2": [1,2,"value2"], "key3": { "key31": "value1", "key32": [1,2,"value2"], "key33": true, }, }
二、json庫(kù)的使用
json庫(kù)一共有三個(gè)方法,分別是 dump、dumps、load、loads。
其中 dump和 dumps是用來(lái)把把字典和數(shù)組轉(zhuǎn)換為 json格式的,dump把轉(zhuǎn)換結(jié)果直接寫入文件,dumps返回字符串。
load和 loads是把 json格式的數(shù)據(jù)轉(zhuǎn)換為字典格式,load直接從 json文件中讀取數(shù)據(jù)并返回字典對(duì)象,loads把字符串形式的 json數(shù)據(jù)轉(zhuǎn)換成字典格式。
下面講講這些方法的具體用法。
1、dump和 dumps
dump的函數(shù)原型是 dump(obj, fp) 第一個(gè)參數(shù) obj是要轉(zhuǎn)換的對(duì)象,第二個(gè)參數(shù) fp是要寫入數(shù)據(jù)的文件對(duì)象。
dumps的函數(shù)原型是 dumps(obj) 參數(shù)是要轉(zhuǎn)換的對(duì)象
注意:如果要轉(zhuǎn)換的對(duì)象里有中文字符的話,要把 ensure_ascii設(shè)置為 False否則中文會(huì)被編碼為 ascii格式
#-*- coding: utf-8 -* import json test = { "key1": "value1", "key2": [1,2,"value2"], "key3": { "key31": "value1", "key32": [1,2,"value2"], "key33": True, "key34": "測(cè)試", }, } #沒有設(shè)置 ensure_ascii為 False with open('test.json', 'w', encoding='utf-8') as fp: json.dump(test, fp) #設(shè)置了 ensure_ascii為 False with open('test_no_ascii.json', 'w', encoding='utf-8') as fp: json.dump(test, fp, ensure_ascii=False) #test.json的文件內(nèi)容為: #{... ... "key33": true, "key34": "\u6d4b\u8bd5"}} #test_no_ascii.json的文件內(nèi)容為: #{... ... "key33": true, "key34": "測(cè)試"}} #注意到 python中的 True轉(zhuǎn)換成了 Javascript里的 true #另外在打開文件的時(shí)候強(qiáng)烈建議用 encoding指定文件編碼 #還需要注意文件的打開模式 w是寫入,文件已存在的話就覆蓋 #要追加寫入的話記得用 a模式打開 test_string = json.dumps(test, ensure_ascii=False) print(test_string)
2、load和 loads
load的函數(shù)原型是 load(fp) 參數(shù) fp是要讀取的文件對(duì)象
loads的函數(shù)原型是 loads(string) 參數(shù) string是要轉(zhuǎn)換成 python對(duì)象的 json字符串,通常用來(lái)將網(wǎng)頁(yè)中的 json數(shù)據(jù)轉(zhuǎn)換為 python對(duì)象
#-*- coding: utf-8 -* import json #json格式的字符串 test_string = '{"key1": "value1", "key2": [1, 2, "value2"], "key3": {"key31": "value1", "key32": [1, 2, "value2"], "key33": true, "key34": "測(cè)試"}}' #從之前保存的 test_no_ascii.json中讀取 注意模式為 r with open('test_no_ascii.json', 'r', encoding='utf-8') as fp: json_obj_from_file = json.load(fp) json_obj_from_web = json.loads(test_string) #打印兩個(gè)返回結(jié)果的類型 print(type(json_obj_from_file)) print(type(json_obj_from_web)) #打印兩個(gè)返回結(jié)果的內(nèi)容 print(json_obj_from_file) print(json_obj_from_web)
上述就是小編為大家分享的python爬蟲如何使用json庫(kù)了,如果剛好有類似的疑惑,不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。