您好,登錄后才能下訂單哦!
一、大數(shù)據(jù)
1、什么是大數(shù)據(jù)?
大數(shù)據(jù)(Big data或Megadata):大數(shù)據(jù),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工,在合理時(shí)間達(dá)到截取、管理、處理、并整理成為人類所能解讀的形式的信息。
2、大數(shù)據(jù)特點(diǎn)
①Volume:數(shù)據(jù)量大,包括采集、存儲(chǔ)和計(jì)算的量都非常大。大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個(gè)T)、E(100萬(wàn)個(gè)T)或Z(10億個(gè)T)。
②Variety:種類和來(lái)源多樣化。包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),具體表現(xiàn)為網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等,多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求。
在這里還是要推薦下我自己建的大數(shù)據(jù)學(xué)習(xí)交流群:529867072,群里都是學(xué)大數(shù)據(jù)開(kāi)發(fā)的,如果你正在學(xué)習(xí)大數(shù)據(jù) ,小編歡迎你加入,大家都是軟件開(kāi)發(fā)黨,不定期分享干貨(只有大數(shù)據(jù)軟件開(kāi)發(fā)相關(guān)的),包括我自己整理的一份最新的大數(shù)據(jù)進(jìn)階資料和高級(jí)開(kāi)發(fā)教程,歡迎進(jìn)階中和進(jìn)想深入大數(shù)據(jù)的小伙伴加入。
③Value:數(shù)據(jù)價(jià)值密度相對(duì)較低,或者說(shuō)是浪里淘沙卻又彌足珍貴。隨著互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無(wú)處不在,信息海量,但價(jià)值密度較低,如何結(jié)合業(yè)務(wù)邏輯并通過(guò)強(qiáng)大的機(jī)器算法來(lái)挖掘數(shù)據(jù)價(jià)值,是大數(shù)據(jù)時(shí)代最需要解決的問(wèn)題。
④Velocity:數(shù)據(jù)增長(zhǎng)速度快,處理速度也快,時(shí)效性要求高。比如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到,個(gè)性化推薦算法盡可能要求實(shí)時(shí)完成推薦。這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的顯著特征。
⑤Veracity:數(shù)據(jù)的準(zhǔn)確性和可信賴度,即數(shù)據(jù)的質(zhì)量。
二、數(shù)據(jù)倉(cāng)庫(kù)
1、什么是數(shù)據(jù)倉(cāng)庫(kù)?
在計(jì)算中,數(shù)據(jù)倉(cāng)庫(kù)(DW或DWH)也稱為企業(yè)數(shù)據(jù)倉(cāng)庫(kù)(EDW),是用于報(bào)告和數(shù)據(jù)分析的系統(tǒng),被視為商業(yè)智能的核心組件。DWs從一個(gè)或多個(gè)不同源的綜合數(shù)據(jù)的中央儲(chǔ)存庫(kù)。他們將當(dāng)前和歷史數(shù)據(jù)存儲(chǔ)在一個(gè)地方,用于為整個(gè)企業(yè)的工作人員創(chuàng)建分析報(bào)告。
2、數(shù)據(jù)倉(cāng)庫(kù)兩種操作方式的特點(diǎn)
①在線分析處理(OLAP)的特點(diǎn)是交易量相對(duì)較低。查詢往往非常復(fù)雜,涉及到聚合。對(duì)于OLAP系統(tǒng),響應(yīng)時(shí)間是一種有效性度量。數(shù)據(jù)挖掘技術(shù)廣泛使用OLAP應(yīng)用程序。OLAP數(shù)據(jù)庫(kù)以多維模式(通常為星型模式)存儲(chǔ)匯總的歷史數(shù)據(jù)。與數(shù)據(jù)集市相比,OLAP系統(tǒng)通常具有數(shù)小時(shí)的數(shù)據(jù)延遲,而數(shù)據(jù)集市預(yù)計(jì)延遲將接近一天。OLAP方法用于分析來(lái)自多個(gè)來(lái)源和視角的多維數(shù)據(jù)。OLAP中的三個(gè)基本操作是:總結(jié)(合并),鉆取和切片和切塊。
②聯(lián)機(jī)事務(wù)處理(OLTP)的特點(diǎn)是大量短暫的在線事務(wù)(INSERT,UPDATE,DELETE)。OLTP系統(tǒng)強(qiáng)調(diào)非??焖俚牟樵兲幚聿⒈3侄嘣L問(wèn)環(huán)境中的數(shù)據(jù)完整性。對(duì)于OLTP系統(tǒng),有效性以每秒交易次數(shù)來(lái)衡量。OLTP數(shù)據(jù)庫(kù)包含詳細(xì)和當(dāng)前的數(shù)據(jù)。用于存儲(chǔ)事務(wù)數(shù)據(jù)庫(kù)的模式是實(shí)體模型(通常是3NF)。規(guī)范化是對(duì)在該系統(tǒng)中數(shù)據(jù)建模技術(shù)的規(guī)范。
三、ETL與DM的區(qū)別
ETL/Extraction-Transformation-Loading——用于完成DB到DW的數(shù)據(jù)轉(zhuǎn)存,它將DB中的某一個(gè)時(shí)間點(diǎn)的狀態(tài),“抽取”出來(lái),根據(jù)DW的存儲(chǔ)模型要求,“轉(zhuǎn)換”一下數(shù)據(jù)格式,然后再“加載”到DW的一個(gè)過(guò)程,這里需要強(qiáng)調(diào)的是,DB的模型是ER模型,遵從范式化設(shè)計(jì)原則,而DW的數(shù)據(jù)模型是雪花型結(jié)構(gòu)或者星型結(jié)構(gòu),用的是面向主題,面向問(wèn)題的設(shè)計(jì)思路,所以DB和DW的模型結(jié)構(gòu)不同,需要進(jìn)行轉(zhuǎn)換。
DM/Data Mining/數(shù)據(jù)挖掘——這個(gè)挖掘,不是簡(jiǎn)單的統(tǒng)計(jì)了,他是根據(jù)概率論的或者其他的統(tǒng)計(jì)學(xué)原理,將DW中的大數(shù)據(jù)量進(jìn)行分析,找出我們不能直觀發(fā)現(xiàn)的規(guī)律。
四、Hadoop
1、什么是Hadoop?
維基百科上面,Hadoop的定義是:一個(gè)用java語(yǔ)言編寫(xiě)的便于大型數(shù)據(jù)集合的分布式儲(chǔ)存和計(jì)算的軟件框架。簡(jiǎn)單來(lái)說(shuō),這是計(jì)算機(jī)領(lǐng)域的一個(gè)開(kāi)源軟件,任何程序開(kāi)發(fā)者都可以看到它的源代碼,并且進(jìn)行編譯。它的出現(xiàn)讓大數(shù)據(jù)的儲(chǔ)存和處理一下子變的快了很多,也便宜了很多。
2、Hadoop特點(diǎn)是什么?
①高效率(Efficient):分布式云計(jì)算,采用標(biāo)準(zhǔn)x86架構(gòu)服務(wù)器大規(guī)模集群實(shí)現(xiàn),每個(gè)模塊都是一個(gè)離散的處理單元,使用并行計(jì)算技術(shù),及群內(nèi)各計(jì)算節(jié)點(diǎn)負(fù)載均衡,當(dāng)某節(jié)點(diǎn)負(fù)荷過(guò)高時(shí),可智能的將負(fù)荷轉(zhuǎn)移到其他節(jié)點(diǎn),并支持節(jié)點(diǎn)線性平滑擴(kuò)展;分布式云存儲(chǔ),采用x86服務(wù)器的本地硬盤實(shí)現(xiàn),使用分布式文件系統(tǒng),每份數(shù)據(jù)至少保存在3個(gè)節(jié)點(diǎn),保證存儲(chǔ)設(shè)計(jì)的性能和可靠性目標(biāo)。
②可靠性(Reliable):能搞自身的維護(hù)數(shù)據(jù)的多個(gè)成本,并且在任務(wù)失敗是自動(dòng)的重新部署計(jì)算任務(wù)
③可擴(kuò)容性(Scalable):能可靠的儲(chǔ)存和處理PB級(jí)的數(shù)據(jù)
④成本低(Economical):可以通過(guò)普通機(jī)器組成的服務(wù)器群來(lái)分發(fā)以及處理數(shù)據(jù)。這些服務(wù)器群總計(jì)可達(dá)數(shù)千個(gè)節(jié)點(diǎn)。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。