溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

一篇文章告訴你大數(shù)據(jù)應(yīng)該怎么學(xué)

發(fā)布時間:2020-07-29 05:15:18 來源:網(wǎng)絡(luò) 閱讀:222 作者:Hjiangxue 欄目:大數(shù)據(jù)

最近不少網(wǎng)友向我咨詢?nèi)绾螌W(xué)習(xí)大數(shù)據(jù)技術(shù)?大數(shù)據(jù)怎么入門?怎么做大數(shù)據(jù)分析?數(shù)據(jù)科學(xué)需要學(xué)習(xí)那些技術(shù)?大數(shù)據(jù)的應(yīng)用前景等等問題。由于大數(shù)據(jù)技術(shù)涉及內(nèi)容太龐雜,大數(shù)據(jù)應(yīng)用領(lǐng)域廣泛,而且各領(lǐng)域和方向采用的關(guān)鍵技術(shù)差異性也會較大,難以三言兩語說清楚,本文從數(shù)據(jù)科學(xué)和大數(shù)據(jù)關(guān)鍵技術(shù)體系角度,來說說大數(shù)據(jù)的核心技術(shù)什么,到底要怎么學(xué)習(xí)它,以及怎么避免大數(shù)據(jù)學(xué)習(xí)的誤區(qū),以供參考。

1.大數(shù)據(jù)應(yīng)用的目標(biāo)是普適智能

要學(xué)好大數(shù)據(jù),首先要明確大數(shù)據(jù)應(yīng)用的目標(biāo),我曾經(jīng)講過大數(shù)據(jù)就好比萬金油,像百度幾年前提的框計算,這個框什么都能往里裝。為什么會這樣,因為大數(shù)據(jù)這個框太大,其終極目標(biāo)是利用一系列信息技術(shù)實現(xiàn)海量數(shù)據(jù)條件下的人類深度洞察和決策智能化,最終走向普適的人機(jī)智能融合!這不僅是傳統(tǒng)信息化管理的擴(kuò)展延伸,也是人類社會發(fā)展管理智能化的核心技術(shù)驅(qū)動力。通過大數(shù)據(jù)應(yīng)用,面向過去,發(fā)現(xiàn)數(shù)據(jù)規(guī)律,歸納已知;面向未來,挖掘數(shù)據(jù)趨勢,預(yù)測未知。從而提高人們對事物的理解和決策處置能力,最終實現(xiàn)社會的普適智能。不管是商業(yè)智能,機(jī)器智能,人工智能,還是智能客服,智能問答,智能推薦,智慧醫(yī)療、智慧交通等相關(guān)技術(shù)和系統(tǒng),其本質(zhì)都是朝著這一目標(biāo)在演進(jìn)。隨著云計算平臺和大數(shù)據(jù)技術(shù)的高速發(fā)展,獲得大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)相關(guān)技術(shù)和支持越來越容易。同時,移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)所具備的全面數(shù)據(jù)采集能力,客觀上促進(jìn)了大數(shù)據(jù)的積累和爆發(fā)??傊髷?shù)據(jù)就是個大框,什么都能往里裝,大數(shù)據(jù)源的采集如果用傳感器的話離不開物聯(lián)網(wǎng)、大數(shù)據(jù)源的采集用智能手機(jī)的話離不開移動互聯(lián)網(wǎng),大數(shù)據(jù)海量數(shù)據(jù)存儲要高擴(kuò)展就離不開云計算,大數(shù)據(jù)計算分析采用傳統(tǒng)的機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘技術(shù)會比較慢,需要做并行計算和分布式計算擴(kuò)展,大數(shù)據(jù)要自動特征工程離不開深度學(xué)習(xí)、大數(shù)據(jù)要互動展示離不開可視化,而面向特定領(lǐng)域和多模態(tài)數(shù)據(jù)的大數(shù)據(jù)分析技術(shù)更是十分廣泛,金融大數(shù)據(jù)、交通大數(shù)據(jù)、醫(yī)療大數(shù)據(jù)、安全大數(shù)據(jù)、電信大數(shù)據(jù)、電商大數(shù)據(jù)、社交大數(shù)據(jù),文本大數(shù)據(jù)、圖像大數(shù)據(jù)、視頻大數(shù)據(jù)…諸如此類等等范圍太廣,所以首先我們要搞清楚大數(shù)據(jù)應(yīng)用的核心目標(biāo),這個明確之后,才利于結(jié)合不同行業(yè)特點把握住共性關(guān)鍵技術(shù),從而有針對性的學(xué)習(xí)。

一篇文章告訴你大數(shù)據(jù)應(yīng)該怎么學(xué)

圖1 國外大數(shù)據(jù)企業(yè)關(guān)系圖,傳統(tǒng)信息技術(shù)企業(yè)也在向智能化發(fā)展,與新興大數(shù)據(jù)企業(yè)互為競爭和支持。

2.從大數(shù)據(jù)版圖看數(shù)據(jù)科學(xué)及其關(guān)鍵技術(shù)體系

明確大數(shù)據(jù)應(yīng)用目標(biāo)之后,我們再看看數(shù)據(jù)科學(xué)(Data Science),數(shù)據(jù)科學(xué)可以理解為一個跨多學(xué)科領(lǐng)域的,從數(shù)據(jù)中獲取知識的科學(xué)方法,技術(shù)和系統(tǒng)集合,其目標(biāo)是從數(shù)據(jù)中提取出有價值的信息,它結(jié)合了諸多領(lǐng)域中的理論和技術(shù),包括應(yīng)用數(shù)學(xué),統(tǒng)計,模式識別,機(jī)器學(xué)習(xí),人工智能,深度學(xué)習(xí),數(shù)據(jù)可視化,數(shù)據(jù)挖掘,數(shù)據(jù)倉庫,以及高性能計算等。圖靈獎得主Jim Gray把數(shù)據(jù)科學(xué)喻為科學(xué)的“第四范式”(經(jīng)驗、理論、計算和數(shù)據(jù)驅(qū)動),并斷言因為信息技術(shù)的影響和數(shù)據(jù)的泛濫增長,未來不管什么領(lǐng)域的科學(xué)問題都將由數(shù)據(jù)所驅(qū)動。

一篇文章告訴你大數(shù)據(jù)應(yīng)該怎么學(xué)
圖2 典型的數(shù)據(jù)科學(xué)過程:包括原始數(shù)據(jù)采集,數(shù)據(jù)預(yù)處理和清洗,數(shù)據(jù)探索式分析,數(shù)據(jù)計算建模,數(shù)據(jù)可視化和報表,數(shù)據(jù)產(chǎn)品和決策支持等。

傳統(tǒng)信息化技術(shù)多是在結(jié)構(gòu)化和小規(guī)模數(shù)據(jù)上進(jìn)行計算處理,大數(shù)據(jù)時代呢,數(shù)據(jù)變大了,數(shù)據(jù)多源異構(gòu)了,需要智能預(yù)測和分析支持了,所以核心技術(shù)離不開機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、人工智能等,另外還需考慮海量數(shù)據(jù)的分布式存儲管理和機(jī)器學(xué)習(xí)算法并行處理,所以數(shù)據(jù)的大規(guī)模增長客觀上促進(jìn)了DT(Data Technology)技術(shù)生態(tài)的繁榮與發(fā)展,包括大數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、分布式存儲、NOSQL數(shù)據(jù)庫、多模式計算(批處理、在線處理、實時流處理、內(nèi)存處理)、多模態(tài)計算(圖像、文本、視頻、音頻)、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能、深度學(xué)習(xí)、并行計算、可視化等各種技術(shù)范疇和不同的層面??梢奃T這種新技術(shù)泛型生態(tài)下的大數(shù)據(jù)版圖十分龐雜,當(dāng)然也有泡沫的成分存在,這個版圖也會時刻處于變化之中,就像PC時代的應(yīng)用程序,互聯(lián)網(wǎng)上的網(wǎng)站,移動互聯(lián)網(wǎng)的APP,大數(shù)據(jù)時代的技術(shù)和產(chǎn)品也正處于優(yōu)勝劣汰的過程。下面我們來看2017版的大數(shù)據(jù)版圖:
一篇文章告訴你大數(shù)據(jù)應(yīng)該怎么學(xué)

歡迎加入大數(shù)據(jù)交流群:658558542 一起吹水交流學(xué)習(xí)
一篇文章告訴你大數(shù)據(jù)應(yīng)該怎么學(xué)
圖3 國外和國內(nèi)中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)版圖(包括數(shù)據(jù)、技術(shù)、應(yīng)用、企業(yè)等)

上述大數(shù)據(jù)版圖基本涵蓋了國外大數(shù)據(jù)相關(guān)技術(shù)和產(chǎn)業(yè)鏈(國內(nèi)中關(guān)村版的大數(shù)據(jù)技術(shù)和企業(yè)還是太少,多是傳統(tǒng)信息技術(shù)企業(yè)在湊數(shù)),從大數(shù)據(jù)源,開源技術(shù)框架,大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè),大數(shù)據(jù)核心的計算挖掘分析,大數(shù)據(jù)行業(yè)應(yīng)用等方面進(jìn)行了相關(guān)技術(shù)、產(chǎn)品和企業(yè)的展示。大數(shù)據(jù)產(chǎn)業(yè)鏈從數(shù)據(jù)源〉開源技術(shù)〉基礎(chǔ)設(shè)施〉分析計算〉行業(yè)應(yīng)用到產(chǎn)品落地,每個鏈條環(huán)節(jié)和下轄的細(xì)分內(nèi)容都涉及大量數(shù)據(jù)分析技術(shù)。不管是學(xué)習(xí)技術(shù)還是開發(fā)產(chǎn)品,分析和理解這個大數(shù)據(jù)產(chǎn)業(yè)版圖都十分必要。版圖細(xì)節(jié)不做贅述,我們重點從學(xué)習(xí)的角度來看DT(Data technology)技術(shù)泛型下包括那些核心技術(shù),各技術(shù)領(lǐng)域之間是什么樣的邏輯關(guān)系,這是學(xué)習(xí)大數(shù)據(jù)首先要搞清楚的問題:

(1)機(jī)器學(xué)習(xí)(machine learning):首先我們說說機(jī)器學(xué)習(xí),為什么先說它,因為機(jī)器學(xué)習(xí)是大數(shù)據(jù)處理承上啟下的關(guān)鍵技術(shù),機(jī)器學(xué)習(xí)往上是深度學(xué)習(xí)、人工智能,機(jī)器學(xué)習(xí)往下是數(shù)據(jù)挖掘和統(tǒng)計學(xué)習(xí)。機(jī)器學(xué)習(xí)屬于計算機(jī)和統(tǒng)計學(xué)交叉學(xué)科,核心目標(biāo)是通過函數(shù)映射、數(shù)據(jù)訓(xùn)練、最優(yōu)化求解、模型評估等一系列算法實現(xiàn)讓計算機(jī)擁有對數(shù)據(jù)進(jìn)行自動分類和預(yù)測的功能,機(jī)器學(xué)習(xí)領(lǐng)域包括很多種類的智能處理算法,分類、聚類、回歸、相關(guān)分析等每類下面都有很多算法進(jìn)行支撐,如SVM,神經(jīng)網(wǎng)絡(luò),Logistic回歸,決策樹、EM、HMM、貝葉斯網(wǎng)絡(luò)、隨機(jī)森林、LDA等,無論是網(wǎng)絡(luò)排名的十大算法還是二十大算法,都只能說是冰山一角,隨著深度學(xué)習(xí)核心技術(shù)的突破性發(fā)展,機(jī)器學(xué)習(xí)算法得以高速擴(kuò)張;總之大數(shù)據(jù)處理要智能化,機(jī)器學(xué)習(xí)是核心的核心,深度學(xué)習(xí)、數(shù)據(jù)挖掘、商業(yè)智能、人工智能,大數(shù)據(jù)等概念的核心技術(shù)就是機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)用于圖像處理和識別就是機(jī)器視覺,機(jī)器學(xué)習(xí)用于模擬人類語言就是自然語言處理,機(jī)器視覺和自然語言處理也是支撐人工智能的核心技術(shù),機(jī)器學(xué)習(xí)用于通用的數(shù)據(jù)分析就是數(shù)據(jù)挖掘。深度學(xué)習(xí)(deep learning)是機(jī)器學(xué)習(xí)里面現(xiàn)在比較火的一個子領(lǐng)域,屬于原來人工神經(jīng)網(wǎng)絡(luò)算法的一系列變種,由于在大數(shù)據(jù)條件下圖像,語音識別等領(lǐng)域的學(xué)習(xí)效果顯著,有望成為人工智能取得突破的關(guān)鍵性技術(shù),所以各大研究機(jī)構(gòu)和IT巨頭們都對其投入了極大的關(guān)注。

(2)數(shù)據(jù)挖掘(data mining),數(shù)據(jù)挖掘可以說是機(jī)器學(xué)習(xí)的一個超集,是一個較為寬泛的概念,類似于采礦,要從大量礦石里面挖出寶石,從海量數(shù)據(jù)里面挖掘有價值有規(guī)律的信息同理。數(shù)據(jù)挖掘核心技術(shù)來自于機(jī)器學(xué)習(xí)領(lǐng)域,如深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一類比較火的算法,當(dāng)然也可以用于數(shù)據(jù)挖掘。還有傳統(tǒng)的商業(yè)智能(BI)領(lǐng)域也包括數(shù)據(jù)挖掘,OLAP多維數(shù)據(jù)分析可以做挖掘分析,甚至Excel基本的統(tǒng)計分析也可以做挖掘。關(guān)鍵是你的技術(shù)能否真正挖掘出有用的信息,然后這些信息可以指導(dǎo)決策。數(shù)據(jù)挖掘的提法比機(jī)器學(xué)習(xí)要早,應(yīng)用范圍要廣,數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)是大數(shù)據(jù)分析的核心技術(shù),互為支撐,為大數(shù)據(jù)處理提供相關(guān)模型和算法,而模型和算法是大數(shù)據(jù)處理的關(guān)鍵,探索式交互式分析、可視化分析、數(shù)據(jù)的采集存儲和管理等都較少用到學(xué)習(xí)模型。

(3)人工智能(artifical intelligence),AI和大數(shù)據(jù)是相互促進(jìn)的關(guān)系,一方面,AI基礎(chǔ)理論技術(shù)的發(fā)展為大數(shù)據(jù)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘提供了更豐富的模型和算法,如近幾年的深度學(xué)習(xí)一系列技術(shù)(強(qiáng)化學(xué)習(xí)、對抗學(xué)習(xí)等)和方法;另一方面,大數(shù)據(jù)為AI的發(fā)展提供了新的動力和燃料,數(shù)據(jù)規(guī)模大了之后,傳統(tǒng)機(jī)器學(xué)習(xí)算法面臨挑戰(zhàn),要做并行化、要加速要改進(jìn)。AI的終極目標(biāo)是機(jī)器智能化擬人化,機(jī)器能完成和人一樣的工作,人腦僅憑幾十瓦的功率,能夠處理種種復(fù)雜的問題,怎樣看都是很神奇的事情。雖然機(jī)器的計算能力比人類強(qiáng)很多,但人類的理解能力,感性的推斷,記憶和幻想,心理學(xué)等方面的功能,機(jī)器是難以比肩的,所以機(jī)器要擬人化很難單從技術(shù)角度把人工智能講清楚。人工智能與機(jī)器學(xué)習(xí)的關(guān)系,兩者的相當(dāng)一部分技術(shù)、算法都是重合的,深度學(xué)習(xí)在計算機(jī)視覺和×××走步等領(lǐng)域取得了巨大的成功,比如谷歌自動識別一只貓,谷歌的AlpaGo還擊敗了人類頂級的專業(yè)圍棋手等。但深度學(xué)習(xí)在現(xiàn)階段還不能實現(xiàn)類腦計算,最多達(dá)到仿生層面,情感,記憶,認(rèn)知,經(jīng)驗等人類獨有能力機(jī)器在短期難以達(dá)到。

(4)其它大數(shù)據(jù)處理基礎(chǔ)技術(shù),如圖4,大數(shù)據(jù)基礎(chǔ)技術(shù)包括計算機(jī)科學(xué)相關(guān)如編程、云計算、分布式計算、系統(tǒng)架構(gòu)設(shè)計等方向,還有機(jī)器學(xué)習(xí)的理論基礎(chǔ)包括如算法、數(shù)據(jù)結(jié)構(gòu)、概率論、代數(shù)、矩陣分析、統(tǒng)計學(xué)習(xí)、特征工程等方面;商業(yè)分析與理解如領(lǐng)域知識管理、產(chǎn)品設(shè)計、可視化等技術(shù);數(shù)據(jù)管理如數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)庫、數(shù)據(jù)倉庫、信息檢索、多維分析、分布式存儲等技術(shù)。這些理論與技術(shù)是為大數(shù)據(jù)的基礎(chǔ)管理、機(jī)器學(xué)習(xí)和應(yīng)用決策等多個方面服務(wù)的。歡迎加入大數(shù)據(jù)交流群:658558542 一起吹水交流學(xué)習(xí)

一篇文章告訴你大數(shù)據(jù)應(yīng)該怎么學(xué)
歡迎加入大數(shù)據(jù)交流群:658558542 一起吹水交流學(xué)習(xí)
圖4 數(shù)據(jù)科學(xué)的技術(shù)維度

上圖是數(shù)據(jù)科學(xué)的5個技術(shù)維度,基本涵蓋了數(shù)據(jù)科學(xué)的關(guān)鍵支撐技術(shù)體系,從數(shù)據(jù)管理、計算機(jī)科學(xué)基礎(chǔ)理論技術(shù)、數(shù)據(jù)分析、商業(yè)理解決策與設(shè)計幾個方面進(jìn)行了數(shù)據(jù)科學(xué)相關(guān)技術(shù)的梳理,其中計算機(jī)科學(xué)基礎(chǔ)理論方法與數(shù)據(jù)分析兩個板塊的學(xué)習(xí)內(nèi)容是最多的,也是最重要的?,F(xiàn)階段的大數(shù)據(jù)產(chǎn)品和服務(wù)多是在數(shù)據(jù)管理版塊,分析板塊和業(yè)務(wù)決策板塊的對接是數(shù)據(jù)科學(xué)和大數(shù)據(jù)產(chǎn)業(yè)后續(xù)發(fā)展的關(guān)鍵突破點。

另外圖中的Art&Design版塊只列了交通溝通和可視化,其實還不夠,這個藝術(shù)(Art)還說明了數(shù)據(jù)科學(xué)與傳統(tǒng)信息化技術(shù)的本質(zhì)不同,數(shù)據(jù)科學(xué)的核心能力是根據(jù)問題提出設(shè)想,再把設(shè)想轉(zhuǎn)化為學(xué)習(xí)模型,這種能力是要講藝術(shù)的,沒有這樣的設(shè)計藝術(shù),計算機(jī)要智能化不是那么容易。為什么上升為藝術(shù)了?因為經(jīng)驗告訴我們,把現(xiàn)實問題轉(zhuǎn)化為模型沒有標(biāo)準(zhǔn)答案,可選的模型不只一種,技術(shù)路線多樣,評價指標(biāo)也有多個維度,甚至優(yōu)化方法也有很多種,機(jī)器學(xué)習(xí)的本質(zhì)就是在處理這門藝術(shù),給定原始數(shù)據(jù)、限制條件和問題描述,沒有標(biāo)準(zhǔn)答案,每種方案的選擇就是一種設(shè)想假設(shè),需要具備利用精確的測試和實驗方法來驗證和證偽這些假設(shè)的能力,從這個層面講,未來所有科學(xué)問題以及商業(yè)、政府管理決策問題都將是數(shù)據(jù)科學(xué)問題,而機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的核心。

3.大數(shù)據(jù)盲人摸象:如何構(gòu)建完整的知識結(jié)構(gòu)和分析能力

從數(shù)字化、信息化、網(wǎng)絡(luò)化到未來的智能化時代,移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)、人工智能等前沿信息技術(shù)領(lǐng)域,逐個火了一遍。也代表了信息技術(shù)發(fā)展的大趨勢,什么是大數(shù)據(jù),大數(shù)據(jù)的技術(shù)范疇及其邏輯關(guān)系,估計很多人都是根據(jù)自己所熟悉的領(lǐng)域在盲人摸象(如圖5)。其實我這里講的盲人摸象并不是貶義,畢竟一個領(lǐng)域的學(xué)習(xí)到精通就是從盲人摸象式開始的。大數(shù)據(jù)、數(shù)據(jù)科學(xué)都是很虛的一個概念,分析目標(biāo)和采用技術(shù)都包羅萬象,就好比寫程序,分前端和后端,分B/S和C/S,分嵌入式、企業(yè)應(yīng)用和APP等,開發(fā)語言更是有數(shù)十種,不同方向所需要的技術(shù)也是大不相同。

一篇文章告訴你大數(shù)據(jù)應(yīng)該怎么學(xué)
歡迎加入大數(shù)據(jù)交流群:658558542 一起吹水交流學(xué)習(xí)
圖5 大數(shù)據(jù)盲人摸象

所以怎么從點到面,構(gòu)建大數(shù)據(jù)領(lǐng)域完整的知識結(jié)構(gòu)和分析能力至關(guān)重要,某方面的技術(shù)和語言只是工具而已。大數(shù)據(jù)知識結(jié)構(gòu),就是既有精深的大數(shù)據(jù)基礎(chǔ)理論知識,又有廣博的知識面和應(yīng)用全局觀,具有大數(shù)據(jù)產(chǎn)業(yè)發(fā)展所需要的最合理、最優(yōu)化、最關(guān)鍵的核心技術(shù)與知識體系。通過合理的知識結(jié)構(gòu)和科學(xué)的大數(shù)據(jù)思維方法,提高大數(shù)據(jù)分析實戰(zhàn)技能。這個目標(biāo)很大,但還是可以達(dá)到的,首先要搞清楚大數(shù)據(jù)產(chǎn)業(yè)鏈的情況,接下來要明確大數(shù)據(jù)技術(shù)棧也就是相關(guān)技術(shù)體系,最后定下學(xué)習(xí)目標(biāo)和應(yīng)用方向,是面對什么行業(yè)的數(shù)據(jù),是關(guān)注存儲還是機(jī)器學(xué)習(xí),數(shù)據(jù)規(guī)模是什么量級,數(shù)據(jù)類型是文本、圖像、網(wǎng)頁還是商業(yè)數(shù)據(jù)庫?每個方向所用技術(shù)有較大差異,需要找準(zhǔn)學(xué)習(xí)的興趣點和切入點。
一篇文章告訴你大數(shù)據(jù)應(yīng)該怎么學(xué)

圖6 大數(shù)據(jù)技術(shù)棧與學(xué)習(xí)路線參考圖

上面這個大數(shù)據(jù)技術(shù)棧和學(xué)習(xí)路線圖,可以說是一個大數(shù)據(jù)學(xué)習(xí)的總綱,專業(yè)性很強(qiáng),值得初學(xué)者深入研究和理解,對我在前面提到的數(shù)據(jù)科學(xué)技術(shù)體系來講,是更豐富的補(bǔ)充。比如基礎(chǔ)學(xué)習(xí)部分包括線性代數(shù)、關(guān)系代數(shù)、數(shù)據(jù)庫基礎(chǔ)、CAP理論、OLAP、多維數(shù)據(jù)模型、數(shù)據(jù)預(yù)處理ETL等都分析得很到位??傊髷?shù)據(jù)學(xué)習(xí)不能像炒菜一樣,等到把所有材料準(zhǔn)備好了才下鍋(因為這個領(lǐng)域技術(shù)體系龐雜應(yīng)用目標(biāo)廣泛,就算學(xué)個十年二十年也難以掌握其大部分核心理論技術(shù)),而是結(jié)合自己的興趣或工作需求,找一個點猛扎進(jìn)去,掌握這個點的相關(guān)技術(shù),深入理解其分析的流程、應(yīng)用和評價等環(huán)節(jié),搞透徹一個點之后,再以點帶面,舉一反三,逐步覆蓋大數(shù)據(jù)各個領(lǐng)域,從而構(gòu)建完整的知識結(jié)構(gòu)和技術(shù)能力體系,這才是大數(shù)據(jù)學(xué)習(xí)的最佳路徑。

4.大數(shù)據(jù)要怎么學(xué):數(shù)據(jù)科學(xué)特點與大數(shù)據(jù)學(xué)習(xí)誤區(qū)

(1)大數(shù)據(jù)學(xué)習(xí)要業(yè)務(wù)驅(qū)動,不要技術(shù)驅(qū)動:數(shù)據(jù)科學(xué)的核心能力是解決問題。

大數(shù)據(jù)的核心目標(biāo)是數(shù)據(jù)驅(qū)動的智能化,要解決具體的問題,不管是科學(xué)研究問題,還是商業(yè)決策問題,抑或是政府管理問題。所以學(xué)習(xí)之前要明確問題,理解問題,所謂問題導(dǎo)向、目標(biāo)導(dǎo)向,這個明確之后再研究和選擇合適的技術(shù)加以應(yīng)用,這樣才有針對性,言必hadoop,spark的大數(shù)據(jù)分析是不嚴(yán)謹(jǐn)?shù)摹2煌臉I(yè)務(wù)領(lǐng)域需要不同方向理論、技術(shù)和工具的支持。如文本、網(wǎng)頁要自然語言建模,隨時間變化數(shù)據(jù)流需要序列建模,圖像音頻和視頻多是時空混合建模;大數(shù)據(jù)處理如采集需要爬蟲、倒入導(dǎo)出和預(yù)處理等支持,存儲需要分布式云存儲、云計算資源管理等支持,計算需要分類、預(yù)測、描述等模型支持,應(yīng)用需要可視化、知識庫、決策評價等支持。所以是業(yè)務(wù)決定技術(shù),而不是根據(jù)技術(shù)來考慮業(yè)務(wù),這是大數(shù)據(jù)學(xué)習(xí)要避免的第一個誤區(qū)。

(2)大數(shù)據(jù)學(xué)習(xí)要善用開源,不要重復(fù)造輪子:數(shù)據(jù)科學(xué)的技術(shù)基因在于開源。

IT前沿領(lǐng)域的開源化已成不可逆轉(zhuǎn)的趨勢,Android開源讓智能手機(jī)平民化,讓我們跨入了移動互聯(lián)網(wǎng)時代,智能硬件開源將帶領(lǐng)跨入物聯(lián)網(wǎng)時代,以Hadoop和Spark為代表的大數(shù)據(jù)開源生態(tài)加速了去IOE(IBM、ORACLE、EMC)進(jìn)程,倒逼傳統(tǒng)IT巨頭擁抱開源,谷歌和OpenAI聯(lián)盟的深度學(xué)習(xí)開源(以Tensorflow,Torch,Caffe等為代表)正在加速人工智能技術(shù)的發(fā)展。數(shù)據(jù)科學(xué)的標(biāo)配語言R和Python更是因開源而生,因開源而繁榮,諾基亞因沒把握開源大勢而衰落。為什么要開源,這得益于IT發(fā)展的工業(yè)化和構(gòu)件化,各大領(lǐng)域的基礎(chǔ)技術(shù)棧和工具庫已經(jīng)很成熟,下一階段就是怎么快速組合、快速搭積木、快速產(chǎn)出的問題,不管是linux,anroid還是tensorflow,其基礎(chǔ)構(gòu)件庫基本就是利用已有開源庫,結(jié)合新的技術(shù)方法實現(xiàn),組合構(gòu)建而成,很少在重復(fù)造輪子。另外,開源這種眾包開發(fā)模式,是一種集體智慧編程的體現(xiàn),一個公司無法積聚全球工程師的開發(fā)智力,而一個GitHub上的明星開源項目可以,所以要善用開源和集體智慧編程,而不要重復(fù)造輪子,這是大數(shù)據(jù)學(xué)習(xí)要避免的第二個誤區(qū)。

(3)大數(shù)據(jù)學(xué)習(xí)要以點帶面,不要貪大求全:數(shù)據(jù)科學(xué)要把握好碎片化與系統(tǒng)性。

根據(jù)前文的大數(shù)據(jù)技術(shù)體系分析,我們可以看到大數(shù)據(jù)技術(shù)的深度和廣度都是傳統(tǒng)信息技術(shù)難以比擬的。我們的精力很有限,短時間內(nèi)很難掌握多個領(lǐng)域的大數(shù)據(jù)理論和技術(shù),數(shù)據(jù)科學(xué)要把握好碎片化和系統(tǒng)性的關(guān)系。何為碎片化,這個碎片化包括業(yè)務(wù)層面和技術(shù)層面,大數(shù)據(jù)不只是谷歌,亞馬遜,BAT等互聯(lián)網(wǎng)企業(yè),每一個行業(yè)、企業(yè)里面都有它去關(guān)注數(shù)據(jù)的痕跡:一條生產(chǎn)線上的實時傳感器數(shù)據(jù),車輛身上的傳感數(shù)據(jù),高鐵設(shè)備的運(yùn)行狀態(tài)數(shù)據(jù),交通部門的監(jiān)控數(shù)據(jù),醫(yī)療機(jī)構(gòu)的病例數(shù)據(jù),政府部門的海量數(shù)據(jù)等等,大數(shù)據(jù)的業(yè)務(wù)場景和分析目標(biāo)是碎片化的,而且相互之間分析目標(biāo)的差異很大;另外,技術(shù)層面來講,大數(shù)據(jù)技術(shù)就是萬金油,一切服務(wù)于數(shù)據(jù)分析和決策的技術(shù)都屬于這個范疇,其技術(shù)體系也是碎片化的。那怎么把握系統(tǒng)性呢,不同領(lǐng)域的大數(shù)據(jù)應(yīng)用有其共性關(guān)鍵技術(shù),其系統(tǒng)技術(shù)架構(gòu)也有相通的地方,如系統(tǒng)的高度可擴(kuò)展性,能進(jìn)行橫向數(shù)據(jù)大規(guī)模擴(kuò)張,縱向業(yè)務(wù)大規(guī)模擴(kuò)展,高容錯性和多源異構(gòu)環(huán)境的支持,對原有系統(tǒng)的兼容和集成等等,每個大數(shù)據(jù)系統(tǒng)都應(yīng)該考慮上述問題。如何把握大數(shù)據(jù)的碎片化學(xué)習(xí)和系統(tǒng)性設(shè)計,離不開前面提出的兩點誤區(qū),建議從應(yīng)用切入、以點帶面,先從一個實際的應(yīng)用領(lǐng)域需求出發(fā),搞定一個一個技術(shù)點,有一定功底之后,再舉一反三橫向擴(kuò)展逐步理解其系統(tǒng)性技術(shù)。

(4)大數(shù)據(jù)學(xué)習(xí)要勇于實踐,不要紙上談兵:數(shù)據(jù)科學(xué)還是數(shù)據(jù)工程?

大數(shù)據(jù)只有和特定領(lǐng)域的應(yīng)用結(jié)合起來才能產(chǎn)生價值,數(shù)據(jù)科學(xué)還是數(shù)據(jù)工程是大數(shù)據(jù)學(xué)習(xí)要明確的關(guān)鍵問題,搞學(xué)術(shù)發(fā)paper數(shù)據(jù)科學(xué)OK,但要大數(shù)據(jù)應(yīng)用落地,如果把數(shù)據(jù)科學(xué)成果轉(zhuǎn)化為數(shù)據(jù)工程進(jìn)行落地應(yīng)用,難度很大,這也是很多企業(yè)質(zhì)疑數(shù)據(jù)科學(xué)價值的原因。且不說這種轉(zhuǎn)化需要一個過程,從業(yè)人員自身也是需要審視思考的。工業(yè)界包括政府管理機(jī)構(gòu)如何引入研究智力,數(shù)據(jù)分析如何轉(zhuǎn)化和價值變現(xiàn)?數(shù)據(jù)科學(xué)研究人員和企業(yè)大數(shù)據(jù)系統(tǒng)開發(fā)工程人員都得想想這些關(guān)鍵問題。目前數(shù)據(jù)工程要解決的關(guān)鍵問題主線是數(shù)據(jù)(Data)>知識(Knowledge)>服務(wù)(Service),數(shù)據(jù)采集和管理,挖掘分析獲取知識,知識規(guī)律進(jìn)行決策支持和應(yīng)用轉(zhuǎn)化為持續(xù)服務(wù)。解決好這三個問題,才算大數(shù)據(jù)應(yīng)用落地,那么從學(xué)習(xí)角度講,DWS就是大數(shù)據(jù)學(xué)習(xí)要解決問題的總目標(biāo),特別要注重數(shù)據(jù)科學(xué)的實踐應(yīng)用能力,而且實踐要重于理論。從模型,特征,誤差,實驗,測試到應(yīng)用,每一步都要考慮是否能解決現(xiàn)實問題,模型是否具備可解釋性,要勇于嘗試和迭代,模型和軟件包本身不是萬能的,大數(shù)據(jù)應(yīng)用要注重魯棒性和實效性,溫室模型是沒有用的,訓(xùn)練集和測試集就OK了嗎?大數(shù)據(jù)如何走出實驗室和工程化落地,一是不能閉門造車,模型收斂了就想當(dāng)然萬事大吉了;二是要走出實驗室充分與業(yè)界實際決策問題對接;三是關(guān)聯(lián)關(guān)系和因果關(guān)系都不能少,不能描述因果關(guān)系的模型無助于解決現(xiàn)實問題;四是注重模型的迭代和產(chǎn)品化,持續(xù)升級和優(yōu)化,解決新數(shù)據(jù)增量學(xué)習(xí)和模型動態(tài)調(diào)整的問題。所以,大數(shù)據(jù)學(xué)習(xí)一定要清楚我是在做數(shù)據(jù)科學(xué)還是數(shù)據(jù)工程,各需要哪些方面的技術(shù)能力,現(xiàn)在處于哪一個階段等,不然為了技術(shù)而技術(shù),是難以學(xué)好和用好大數(shù)據(jù)的。歡迎加入大數(shù)據(jù)交流群:658558542 一起吹水交流學(xué)習(xí)

(5)大數(shù)據(jù)學(xué)習(xí)的三個階段:不同階段的技術(shù)路線各有側(cè)重,把握主要矛盾。

在大數(shù)據(jù)應(yīng)用實施過程中,由于技術(shù)和成本考慮,不可能短時間內(nèi)解決所有問題,大數(shù)據(jù)應(yīng)用本身有其規(guī)律和特點,比如分析目標(biāo)一定是要跟數(shù)據(jù)規(guī)模匹配,分析技術(shù)的采用取決于數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)源條件,數(shù)據(jù)集成一定要覆蓋比較全面的業(yè)務(wù)背景,關(guān)鍵環(huán)節(jié)數(shù)據(jù)不能有缺失等等。大數(shù)據(jù)學(xué)習(xí)可以根據(jù)應(yīng)用目標(biāo)分三個階段:

1)大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)階段:這個階段的重點是把大數(shù)據(jù)存起來,管起來,能用起來,同時要考慮大數(shù)據(jù)平臺和原有業(yè)務(wù)系統(tǒng)的互通聯(lián)合問題。一句話,做好全局?jǐn)?shù)據(jù)集成解決數(shù)據(jù)孤島問題!要完成大數(shù)據(jù)基礎(chǔ)設(shè)施系統(tǒng)建設(shè)開發(fā),需要明確數(shù)據(jù)采集、存儲和分析各層核心組件的選型和使用,搭建穩(wěn)定的大數(shù)據(jù)集群,或選擇私有云方案的服務(wù)集群,與生產(chǎn)系統(tǒng)并線運(yùn)行,使待分析的歷史數(shù)據(jù)和實時數(shù)據(jù)得以采集并源源不斷流入大數(shù)據(jù)系統(tǒng)。這個階段的關(guān)鍵技術(shù)學(xué)習(xí)包括采集爬蟲、數(shù)據(jù)接口、分布式存儲、數(shù)據(jù)預(yù)處理ETL、數(shù)據(jù)集成、數(shù)據(jù)庫和數(shù)據(jù)倉庫管理、云計算和資源調(diào)度管理等等內(nèi)容。

2)大數(shù)據(jù)描述性分析階段:此階段主要定位于離線或在線對數(shù)據(jù)進(jìn)行基本描述統(tǒng)計和探索式可視化分析,對管理起來的大數(shù)據(jù)能進(jìn)行海量存儲條件下的交互式查詢、匯總、統(tǒng)計和可視化,如果建設(shè)了BI系統(tǒng)的,還需整合傳統(tǒng)BI技術(shù)進(jìn)行OLAP、KPI、Report、Chart、Dashboard等分析和初步的描述型數(shù)據(jù)挖掘分析。這個基礎(chǔ)分析階段是對數(shù)據(jù)集成質(zhì)量的檢驗,也是對海量數(shù)據(jù)條件下的分布式存儲管理技術(shù)應(yīng)用穩(wěn)定性的測試,同時要能替代或集成傳統(tǒng)BI的各類報表。這個階段的關(guān)鍵技術(shù)學(xué)習(xí)包括可視化、探索式交互式分析、多維分析、各類基本報表和圖表的查詢設(shè)計等等。

3)大數(shù)據(jù)高級預(yù)測分析和生產(chǎn)部署階段:在初步描述分析結(jié)果合理,符合預(yù)期目標(biāo),數(shù)據(jù)分布式管理和描述型分析穩(wěn)定成熟的條件下,可結(jié)合進(jìn)一步智能化分析需求,采用如深度學(xué)習(xí)等適用海量數(shù)據(jù)處理的機(jī)器學(xué)習(xí)模型,進(jìn)行高級預(yù)測性挖掘分析。并通過逐步迭代優(yōu)化挖掘模型和數(shù)據(jù)質(zhì)量,形成穩(wěn)定可靠和性能可擴(kuò)展的智能預(yù)測模型,并在企業(yè)相關(guān)業(yè)務(wù)服務(wù)中進(jìn)行分析結(jié)果的決策支持,進(jìn)行驗證、部署、評估和反饋。這個階段的關(guān)鍵技術(shù)包括機(jī)器學(xué)習(xí)建模、決策支持、可視化、模型部署和運(yùn)維等。

在上述幾個階段的技術(shù)學(xué)習(xí)過程中,需要注意幾個關(guān)鍵問題:一是重視可視化和業(yè)務(wù)決策,大數(shù)據(jù)分析結(jié)果是為決策服務(wù),而大數(shù)據(jù)決策的表現(xiàn)形式,可視化技術(shù)的優(yōu)劣起決定性作用;二是問問自己,Hadoop、Spark等是必須的嗎?要從整個大數(shù)據(jù)技術(shù)棧來考慮技術(shù)選型和技術(shù)路線的確定;三是建模問題處于核心地位,模型的選擇和評估至關(guān)重要,在課堂和實驗室中,多數(shù)模型的評估是靜態(tài)的,少有考慮其運(yùn)行速度、實時性及增量處理,因此多使用復(fù)雜的臃腫模型,其特征變量往往及其復(fù)雜。而Kaggle競賽中的各種Boost方法,XGBDT、隨機(jī)森林等模型,在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)教材中卻少有提及,所以要充分參考業(yè)界實戰(zhàn)經(jīng)驗不能盡信書;四是開發(fā)語言的選擇,基礎(chǔ)框架系統(tǒng)Java是必須掌握的,應(yīng)用級的機(jī)器學(xué)習(xí)和數(shù)據(jù)分析庫Python是必須掌握的,而要深入各種框架和學(xué)習(xí)庫的底層,C++是必須掌握的;五是模型的產(chǎn)品化,需要將實際數(shù)據(jù)通過管道設(shè)計轉(zhuǎn)換為輸入特征傳遞給模型,如何最小化模型在線上和線下的表現(xiàn)差距,這些都是要解決關(guān)鍵的問題。

(6)其它補(bǔ)充:Kaggle,眾包與培訓(xùn)。眾包是一種基于互聯(lián)網(wǎng)的創(chuàng)新生產(chǎn)組織形式,企業(yè)利用網(wǎng)絡(luò)將工作分配出去,通過讓更合適的人群參與其中來發(fā)現(xiàn)創(chuàng)意和解決問題,如維基百科,還有IT資源社區(qū)GitHub,都是典型的眾包平臺。眾包+開源極大推動了IT產(chǎn)業(yè)的快速發(fā)展,當(dāng)然Kaggle作為數(shù)據(jù)科學(xué)領(lǐng)域頂級的眾包平臺,其影響力遠(yuǎn)不止于此(所以剛剛被谷歌收購)。企業(yè)和研究者可在Kaggle上發(fā)布數(shù)據(jù),數(shù)據(jù)分析人員可在其上進(jìn)行競賽以產(chǎn)生最好的模型。這一眾包模式本質(zhì)就是集體智慧編程的體現(xiàn),即有眾多策略可以用于解決幾乎所有預(yù)測建模問題,而分析人員不可能一開始就能找到最佳方案,Kaggle的目標(biāo)就是通過眾包的形式來解決這一難題,進(jìn)而使數(shù)據(jù)科學(xué)成為一場集體智慧運(yùn)動。所以說要學(xué)好大數(shù)據(jù),嚴(yán)重推薦去Kaggle沖沖浪,很好的歷練平臺。至于大數(shù)據(jù)培訓(xùn)嘛,基礎(chǔ)理論和技術(shù)還不甚了解的情況下可以去培訓(xùn)學(xué)習(xí),有基礎(chǔ)之后還得靠自己多練多解決實際問題。歡迎加入大數(shù)據(jù)交流群:658558542 一起吹水交流學(xué)習(xí)

5.結(jié)論與展望

做個小結(jié),大數(shù)據(jù)不是銀彈(Silver Bullet),大數(shù)據(jù)的興起只是說明了一種現(xiàn)象,隨著科技的高速發(fā)展,數(shù)據(jù)在人類生活和決策中所占的比重越來越大。面對如此廣度和深度的大數(shù)據(jù)技術(shù)棧和工具集,如何學(xué)習(xí)和掌握好大數(shù)據(jù)分析這種技能,猶如盲人摸象,冷暖自知。不過技術(shù)的學(xué)習(xí)和應(yīng)用也是相通的,條條大路通羅馬,關(guān)鍵是要找準(zhǔn)切入點,理論與實踐結(jié)合,有全局觀,工程化思維,對復(fù)雜系統(tǒng)設(shè)計開發(fā)與關(guān)鍵技術(shù)體系的主要矛盾要有所把握。熟悉大數(shù)據(jù)基礎(chǔ)理論與算法、應(yīng)用切入、以點帶面、舉一反三、橫向擴(kuò)展,從而構(gòu)建完整的大數(shù)據(jù)知識結(jié)構(gòu)和核心技術(shù)能力,這樣的學(xué)習(xí)效果就會好很多。

另外,技術(shù)發(fā)展也遵循量變到質(zhì)變規(guī)律,人工智能+物聯(lián)網(wǎng)+大數(shù)據(jù)+云計算是四位一體發(fā)展的(時間有先后,但技術(shù)實質(zhì)性突破都在最近幾年),未來智能時代的基礎(chǔ)設(shè)施、核心架構(gòu)將基于這四個層面,這種社會演化趨勢也很明顯:農(nóng)業(yè)時代〉工業(yè)時代〉互聯(lián)網(wǎng)時代〉智能化時代。在這個四位一體智能技術(shù)鏈條里面,物聯(lián)網(wǎng)重在數(shù)據(jù)采集,云計算重在基礎(chǔ)設(shè)施,大數(shù)據(jù)技術(shù)處于核心地位,人工智能則是發(fā)展目標(biāo),所以學(xué)習(xí)大數(shù)據(jù)技術(shù)還需要對這四個方面加以綜合研究和理解。

為了幫助大家讓學(xué)習(xí)變得輕松、高效,給大家免費(fèi)分享一大批資料,幫助大家在成為大數(shù)據(jù)工程師,乃至架構(gòu)師的路上披荊斬棘。在這里給大家推薦一個大數(shù)據(jù)學(xué)習(xí)交流圈:658558542 歡迎大家進(jìn)×××流討論,學(xué)習(xí)交流,共同進(jìn)步。

當(dāng)真正開始學(xué)習(xí)的時候難免不知道從哪入手,導(dǎo)致效率低下影響繼續(xù)學(xué)習(xí)的信心。

但最重要的是不知道哪些技術(shù)需要重點掌握,學(xué)習(xí)時頻繁踩坑,最終浪費(fèi)大量時間,所以有有效資源還是很有必要的。

最后祝福所有遇到瓶疾且不知道怎么辦的大數(shù)據(jù)程序員們,祝福大家在往后的工作與面試中一切順利。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI