<samp id="adstl"><listing id="adstl"><dl id="adstl"></dl></listing></samp>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點(diǎn)擊重新獲取二維碼

大數(shù)據(jù)分析平臺系統(tǒng)開發(fā)思路及步驟是什么

發(fā)布時間：2021-12-28 15:02:54 來源：億速云閱讀：237 作者：柒染欄目：大數(shù)據(jù)

這篇文章給大家介紹大數(shù)據(jù)分析平臺系統(tǒng)開發(fā)思路及步驟是什么，內(nèi)容非常詳細(xì)，感興趣的小伙伴們可以參考借鑒，希望對大家能有所幫助。

1、搭建大數(shù)據(jù)平臺離不開BI。在大數(shù)據(jù)之前，BI就已經(jīng)存在很久了，簡單把大數(shù)據(jù)等同于BI，明顯是不恰當(dāng)?shù)?。但兩者又是緊密關(guān)聯(lián)的，相輔相成的。BI是達(dá)成業(yè)務(wù)管理的應(yīng)用工具，沒有BI，大數(shù)據(jù)就沒有了價值轉(zhuǎn)化的工具，就無法把數(shù)據(jù)的價值呈現(xiàn)給用戶，也就無法有效地支撐企業(yè)經(jīng)營管理決策；大數(shù)據(jù)則是基礎(chǔ)，沒有大數(shù)據(jù)，BI就失去了存在的基礎(chǔ)，沒有辦法快速、實(shí)時、高效地處理數(shù)據(jù)，支撐應(yīng)用。所以，數(shù)據(jù)的價值發(fā)揮，大數(shù)據(jù)平臺的建設(shè)，必然是囊括了大數(shù)據(jù)處理與BI應(yīng)用分析建設(shè)的。

2、大數(shù)據(jù)擁有價值。來看看數(shù)據(jù)使用金字塔模型，從數(shù)據(jù)的使用角度來看，數(shù)據(jù)基本有以下使用方式：

大數(shù)據(jù)分析平臺系統(tǒng)開發(fā)思路及步驟是什么

自上而下，可以看到，對數(shù)據(jù)的要求是不一樣的：

數(shù)據(jù)量越來越大，維度越來越多。
交互難度越來越大。
技術(shù)難度越來越大。
以人為主，逐步向機(jī)器為主。
用戶專業(yè)程度逐步提升，門檻越來越高。

企業(yè)對數(shù)據(jù)、效率要求的逐步提高，也給大數(shù)據(jù)提供了展現(xiàn)能力的平臺。企業(yè)構(gòu)建大數(shù)據(jù)平臺，歸根到底是構(gòu)建企業(yè)的數(shù)據(jù)資產(chǎn)運(yùn)營中心，發(fā)揮數(shù)據(jù)的價值，支撐企業(yè)的發(fā)展。

整體方案思路如下：

建設(shè)企業(yè)的基礎(chǔ)數(shù)據(jù)中心，構(gòu)建企業(yè)統(tǒng)一的數(shù)據(jù)存儲體系，統(tǒng)一進(jìn)行數(shù)據(jù)建模，為數(shù)據(jù)的價值呈現(xiàn)奠定基礎(chǔ)。同時數(shù)據(jù)處理能力下沉，建設(shè)集中的數(shù)據(jù)處理中心，提供強(qiáng)大的數(shù)據(jù)處理能力；通過統(tǒng)一的數(shù)據(jù)管理監(jiān)控體系，保障系統(tǒng)的穩(wěn)定運(yùn)行。有了數(shù)據(jù)基礎(chǔ)，構(gòu)建統(tǒng)一的BI應(yīng)用中心，滿足業(yè)務(wù)需求，體現(xiàn)數(shù)據(jù)價值。

提到大數(shù)據(jù)就會提到hadoop。大數(shù)據(jù)并不等同于hadoop，但hadoop的確是最熱門的大數(shù)據(jù)技術(shù)。下面以最常用的混搭架構(gòu)，來看一下大數(shù)據(jù)平臺可以怎么通過Kafka作為統(tǒng)一采集平臺的消息管理層，靈活的對接、適配各種數(shù)據(jù)源采集（如集成flume），提供靈活、可配置的數(shù)據(jù)采集能力。利用spark和hadoop技術(shù)，構(gòu)建大數(shù)據(jù)平臺最為核心的基礎(chǔ)數(shù)據(jù)的存儲、處理能力中心，提供強(qiáng)大的數(shù)據(jù)處理能力，滿足數(shù)據(jù)的交互需求。同時通過spark streaming，可以有效滿足企業(yè)實(shí)時數(shù)據(jù)的要求，構(gòu)建企業(yè)發(fā)展的實(shí)時指標(biāo)體系。

同時為了更好的滿足的數(shù)據(jù)獲取需求，通過RDBMS，提供企業(yè)高度匯總的統(tǒng)計數(shù)據(jù)，滿足企業(yè)常規(guī)的統(tǒng)計報表需求，降低使用門檻。對大數(shù)據(jù)明細(xì)查詢需求，則通過構(gòu)建HBase集群，提供大數(shù)據(jù)快速查詢能力，滿足對大數(shù)據(jù)的查詢獲取需求。

大數(shù)據(jù)分析平臺系統(tǒng)開發(fā)思路及步驟是什么

一般的大數(shù)據(jù)平臺從平臺搭建到數(shù)據(jù)分析大概包括以下幾個步驟：

1、Linux系統(tǒng)安裝

一般使用開源版的Redhat系統(tǒng)--CentOS作為底層平臺。為了提供穩(wěn)定的硬件基礎(chǔ)，在給硬盤做RAID和掛載數(shù)據(jù)存儲節(jié)點(diǎn)的時，需要按情況配置。比如，可以選擇給HDFS的namenode做RAID2以提高其穩(wěn)定性，將數(shù)據(jù)存儲與操作系統(tǒng)分別放置在不同硬盤上，以確保操作系統(tǒng)的正常運(yùn)行。

2、分布式計算平臺/組件安裝

當(dāng)前分布式系統(tǒng)的大多使用的是Hadoop系列開源系統(tǒng)。Hadoop的核心是HDFS，一個分布式的文件系統(tǒng)。在其基礎(chǔ)上常用的組件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。

使用開源組件的優(yōu)點(diǎn)：1）使用者眾多，很多bug可以在網(wǎng)上找的答案（這往往是開發(fā)中最耗時的地方）；2）開源組件一般免費(fèi)，學(xué)習(xí)和維護(hù)相對方便；3）開源組件一般會持續(xù)更新；4）因?yàn)榇a開源，如果出現(xiàn)bug可自由對源碼作修改維護(hù)。

常用的分布式數(shù)據(jù)數(shù)據(jù)倉庫有Hive、Hbase。Hive可以用SQL查詢，Hbase可以快速讀取行。外部數(shù)據(jù)庫導(dǎo)入導(dǎo)出需要用到Sqoop。Sqoop將數(shù)據(jù)從Oracle、MySQL等傳統(tǒng)數(shù)據(jù)庫導(dǎo)入Hive或Hbase。Zookeeper是提供數(shù)據(jù)同步服務(wù)， Impala是對hive的一個補(bǔ)充，可以實(shí)現(xiàn)高效的SQL查詢

3、數(shù)據(jù)導(dǎo)入

前面提到，數(shù)據(jù)導(dǎo)入的工具是Sqoop。它可以將數(shù)據(jù)從文件或者傳統(tǒng)數(shù)據(jù)庫導(dǎo)入到分布式平臺。

4、數(shù)據(jù)分析

數(shù)據(jù)分析一般包括兩個階段：數(shù)據(jù)預(yù)處理和數(shù)據(jù)建模分析。

數(shù)據(jù)預(yù)處理是為后面的建模分析做準(zhǔn)備，主要工作時從海量數(shù)據(jù)中提取可用特征，建立大寬表。這個過程可能會用到Hive SQL，Spark QL和Impala。

數(shù)據(jù)建模分析是針對預(yù)處理提取的特征/數(shù)據(jù)建模，得到想要的結(jié)果。如前面所提到的，這一塊最好用的是Spark。常用的機(jī)器學(xué)習(xí)算法，如樸素貝葉斯、邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、TFIDF、協(xié)同過濾等，都已經(jīng)在ML lib里面，調(diào)用比較方便。

5、結(jié)果可視化及輸出API

可視化一般式對結(jié)果或部分原始數(shù)據(jù)做展示。一般有兩種情況，行數(shù)據(jù)展示，和列查找展示。

關(guān)于大數(shù)據(jù)分析平臺系統(tǒng)開發(fā)思路及步驟是什么就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，可以學(xué)到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
bootstrap指的是什么協(xié)議
下一篇新聞：
mysql如何查看表的注釋

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼

<table id="sbaeq"><menuitem id="sbaeq"><ins id="sbaeq"></ins></menuitem></table>