您好,登錄后才能下訂單哦!
如何進(jìn)行大數(shù)據(jù)平臺(tái)的搭建和數(shù)據(jù)分析,很多新手對(duì)此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來(lái)學(xué)習(xí)下,希望你能有所收獲。
行內(nèi)人士皆知,大數(shù)據(jù)分析平臺(tái)的搭建有利于幫助企業(yè)構(gòu)建統(tǒng)一的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理資源,圍繞企業(yè)業(yè)務(wù)開(kāi)展大數(shù)據(jù)應(yīng)用建設(shè),最終形成面向服務(wù)化的數(shù)據(jù)資產(chǎn)。
一般的大數(shù)據(jù)平臺(tái)從平臺(tái)搭建到數(shù)據(jù)分析大概包括以下幾個(gè)步驟:
1、Linux系統(tǒng)安裝
一般使用開(kāi)源版的Redhat系統(tǒng)--CentOS作為底層平臺(tái)。為了提供穩(wěn)定的硬件基礎(chǔ),在給硬盤(pán)做RAID和掛載數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)的時(shí),需要按情況配置。比如,可以選擇給HDFS的namenode做RAID2以提高其穩(wěn)定性,將數(shù)據(jù)存儲(chǔ)與操作系統(tǒng)分別放置在不同硬盤(pán)上,以確保操作系統(tǒng)的正常運(yùn)行。
2、分布式計(jì)算平臺(tái)/組件安裝
當(dāng)前分布式系統(tǒng)的大多使用的是Hadoop系列開(kāi)源系統(tǒng)。Hadoop的核心是HDFS,一個(gè)分布式的文件系統(tǒng)。在其基礎(chǔ)上常用的組件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。
使用開(kāi)源組件的優(yōu)點(diǎn):1)使用者眾多,很多bug可以在網(wǎng)上找的答案(這往往是開(kāi)發(fā)中最耗時(shí)的地方);2)開(kāi)源組件一般免費(fèi),學(xué)習(xí)和維護(hù)相對(duì)方便;3)開(kāi)源組件一般會(huì)持續(xù)更新;4)因?yàn)榇a開(kāi)源,如果出現(xiàn)bug可自由對(duì)源碼作修改維護(hù)。
常用的分布式數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)有Hive、Hbase。Hive可以用SQL查詢,Hbase可以快速讀取行。外部數(shù)據(jù)庫(kù)導(dǎo)入導(dǎo)出需要用到Sqoop。Sqoop將數(shù)據(jù)從Oracle、MySQL等傳統(tǒng)數(shù)據(jù)庫(kù)導(dǎo)入Hive或Hbase。Zookeeper是提供數(shù)據(jù)同步服務(wù),Impala是對(duì)hive的一個(gè)補(bǔ)充,可以實(shí)現(xiàn)高效的SQL查詢
3、數(shù)據(jù)導(dǎo)入
前面提到,數(shù)據(jù)導(dǎo)入的工具是Sqoop。它可以將數(shù)據(jù)從文件或者傳統(tǒng)數(shù)據(jù)庫(kù)導(dǎo)入到分布式平臺(tái)。
4、數(shù)據(jù)分析
數(shù)據(jù)分析一般包括兩個(gè)階段:數(shù)據(jù)預(yù)處理和數(shù)據(jù)建模分析。
數(shù)據(jù)預(yù)處理是為后面的建模分析做準(zhǔn)備,主要工作時(shí)從海量數(shù)據(jù)中提取可用特征,建立大寬表。這個(gè)過(guò)程可能會(huì)用到Hive SQL,Spark QL和Impala。
數(shù)據(jù)建模分析是針對(duì)預(yù)處理提取的特征/數(shù)據(jù)建模,得到想要的結(jié)果。如前面所提到的,這一塊最好用的是Spark。常用的機(jī)器學(xué)習(xí)算法,如樸素貝葉斯、邏輯回歸、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、TFIDF、協(xié)同過(guò)濾等,都已經(jīng)在ML lib里面,調(diào)用比較方便。
5、結(jié)果可視化及輸出API
可視化一般式對(duì)結(jié)果或部分原始數(shù)據(jù)做展示。一般有兩種情況,行數(shù)據(jù)展示,和列查找展示。
看完上述內(nèi)容是否對(duì)您有幫助呢?如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請(qǐng)關(guān)注億速云行業(yè)資訊頻道,感謝您對(duì)億速云的支持。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。