您好,登錄后才能下訂單哦!
大數(shù)據(jù)是眼下非常時(shí)髦的技術(shù)名詞,與此同時(shí)自然也催生出了一些與大數(shù)據(jù)處理相關(guān)的職業(yè),通過(guò)對(duì)數(shù)據(jù)的挖掘分析來(lái)影響企業(yè)的商業(yè)決策。
這群人在國(guó)外被叫做數(shù)據(jù)科學(xué)家(Data
Scientist),這個(gè)頭銜最早由D.J.Pati和Jeff
Hammerbacher于2008年提出,他們后來(lái)分別成為了領(lǐng)英(LinkedIn)和Facebook數(shù)據(jù)科學(xué)團(tuán)隊(duì)的負(fù)責(zé)人。而數(shù)據(jù)科學(xué)家這個(gè)職位目前也已經(jīng)在美國(guó)傳統(tǒng)的電信、零售、金融、制造、物流、醫(yī)療、教育等行業(yè)里開(kāi)始創(chuàng)造價(jià)值。
不過(guò)在國(guó)內(nèi),大數(shù)據(jù)的應(yīng)用才剛剛萌芽,人才市場(chǎng)還不那么成熟,“你很難期望有一個(gè)全才來(lái)完成整個(gè)鏈條上的所有環(huán)節(jié)。更多公司會(huì)根據(jù)自己已有的資源和短板,招聘能和現(xiàn)有團(tuán)隊(duì)互補(bǔ)的人才。”領(lǐng)英(LinkedIn)中國(guó)商務(wù)分析及戰(zhàn)略總監(jiān)王昱堯?qū)Α兜谝回?cái)經(jīng)周刊》說(shuō)。
于是每家公司對(duì)大數(shù)據(jù)工作的要求不盡相同:有的強(qiáng)調(diào)數(shù)據(jù)庫(kù)編程、有的突出應(yīng)用數(shù)學(xué)和統(tǒng)計(jì)學(xué)知識(shí)、有的則要求有咨詢公司或投行相關(guān)的經(jīng)驗(yàn)、有些是希望能找到懂得產(chǎn)品和市場(chǎng)的應(yīng)用型人才。正因?yàn)槿绱?,很多公司?huì)針對(duì)自己的業(yè)務(wù)類型和團(tuán)隊(duì)分工,給這群與大數(shù)據(jù)打交道的人一些新的頭銜和定義:數(shù)據(jù)挖掘工程師、大數(shù)據(jù)專家、數(shù)據(jù)研究員、用戶分析專家等都是經(jīng)常在國(guó)內(nèi)公司里出現(xiàn)的Title,我們將其統(tǒng)稱為“大數(shù)據(jù)工程師”。
我們身處一個(gè)“技術(shù)爆炸”和“共享、開(kāi)源”的時(shí)代,先進(jìn)技術(shù)的更新迭代速率超過(guò)了歷史上任何一個(gè)時(shí)期,而且這些技術(shù)也不再閉塞,人人都可以接觸并學(xué)習(xí)。終身學(xué)習(xí)已經(jīng)是我們每個(gè)人不得不面對(duì)的問(wèn)題,這一點(diǎn)在大數(shù)據(jù)/人工智能領(lǐng)域體現(xiàn)的尤為明顯:層出不窮的新技術(shù),一方面為我們帶來(lái)了便利,但同時(shí)也使我們面臨難以高效學(xué)習(xí)和選擇的窘境。因此,在這樣的時(shí)代背景下學(xué)習(xí)大數(shù)據(jù)知識(shí),需要有相適應(yīng)的邏輯和方法。
本文試圖幫助各位讀者用好各類“共享、開(kāi)源”的學(xué)習(xí)工具以及學(xué)習(xí)渠道,躲過(guò)各類新手容易誤入的“深坑”,以最小時(shí)間成本和經(jīng)濟(jì)成本,優(yōu)質(zhì)地完成目標(biāo)技術(shù)的學(xué)習(xí)和掌握。
本文首先分析了時(shí)代背景,繼而對(duì)目前大數(shù)據(jù)領(lǐng)域的人才梯隊(duì)進(jìn)行了劃分,最后給出了大數(shù)據(jù)/人工智能人才從菜鳥(niǎo)到高手的進(jìn)階指南。
在這里相信有許多想要學(xué)習(xí)大數(shù)據(jù)的同學(xué),大家可以+下大數(shù)據(jù)學(xué)習(xí)裙:532加上二1八最后147,即可免費(fèi)領(lǐng)取一整套系統(tǒng)的大數(shù)據(jù)學(xué)習(xí)教程
一、背景鋪墊
“技術(shù)爆炸”以及“共享開(kāi)源”是這個(gè)時(shí)代最有特色的標(biāo)簽,筆者認(rèn)為二者是互為因果且緊密聯(lián)系的,首先在“技術(shù)爆炸”的時(shí)代,對(duì)于走在技術(shù)發(fā)展最前沿的研究團(tuán)隊(duì)來(lái)說(shuō),“技術(shù)變現(xiàn)”的最好手段就是“共享開(kāi)源”。反觀互聯(lián)網(wǎng)、移動(dòng)互聯(lián)發(fā)展成熟之前,信息是十分閉塞的,某項(xiàng)技術(shù)創(chuàng)新一旦出現(xiàn)就需要第一時(shí)間注冊(cè)專利,技術(shù)需要靠政府來(lái)保護(hù),而技術(shù)變現(xiàn)的唯一途徑就是出賣(mài)專利或者組織生產(chǎn)形成產(chǎn)品。
現(xiàn)如今互聯(lián)網(wǎng)及移動(dòng)互聯(lián)已經(jīng)發(fā)展的十分成熟,新的信息會(huì)以極低的成本在極短的時(shí)間內(nèi)傳遍世界的每個(gè)角落,所以處在技術(shù)前沿的研究團(tuán)隊(duì)僅需要在第一時(shí)間將自己的工作成果上傳到“arxiv”或者“github”之類中立的共享、開(kāi)源網(wǎng)站,便會(huì)立即得到全球輿論的共同保護(hù),這樣的力度要遠(yuǎn)遠(yuǎn)強(qiáng)于某個(gè)國(guó)家的專利保護(hù)。
隨后,只要新技術(shù)確有應(yīng)用價(jià)值或者學(xué)術(shù)價(jià)值,那么各類資本巨頭、科技大鱷以及相關(guān)的各類組織便會(huì)排著隊(duì)上門(mén)送出豐厚的offer,對(duì)于前沿團(tuán)隊(duì)來(lái)說(shuō),技術(shù)變現(xiàn)的時(shí)間點(diǎn)要遠(yuǎn)遠(yuǎn)早于技術(shù)產(chǎn)品化的時(shí)間點(diǎn)。
其次,因?yàn)椤凹夹g(shù)爆炸”總有新的技術(shù)等待著前沿團(tuán)隊(duì)去研究發(fā)現(xiàn),所以前沿團(tuán)隊(duì)保持領(lǐng)先的最好方法不是捂著現(xiàn)有成果不放,而是盡快“共享開(kāi)源”實(shí)現(xiàn)變現(xiàn),然后投入到新的研究工作中。
最后,“共享開(kāi)源”也在很大程度上促進(jìn)了“技術(shù)爆炸”,無(wú)論任何技術(shù)、科技的長(zhǎng)足發(fā)展都需要一個(gè)龐大人才體系來(lái)支撐,反觀歷史上的各個(gè)時(shí)期,分享知識(shí)、培養(yǎng)人才的渠道主要是“學(xué)?!保@一渠道不但形式單一而且往往具備相當(dāng)?shù)拈T(mén)檻,會(huì)將相當(dāng)一部分“有志青年”擋在門(mén)外。
而在如今這個(gè)時(shí)代,知識(shí)傳播最快速的渠道是互聯(lián)網(wǎng),由于“共享開(kāi)源”,世界上最優(yōu)質(zhì)的教育資源以及最先進(jìn)的學(xué)術(shù)、技術(shù)理念忽然間沒(méi)有了任何門(mén)檻,面向全部個(gè)體無(wú)差別開(kāi)放,結(jié)果就是只要某一技術(shù)、科技領(lǐng)域有了很大的突破并具備廣闊的應(yīng)用前景(如大數(shù)據(jù)、人工智能),那么相應(yīng)的人才梯隊(duì)會(huì)在短時(shí)間內(nèi)自動(dòng)補(bǔ)齊跟上。
站在大數(shù)據(jù)學(xué)術(shù)前沿的研究團(tuán)隊(duì)只需要一往無(wú)前地開(kāi)拓疆域,其后的人才梯隊(duì)隨即會(huì)自動(dòng)開(kāi)展“新技術(shù)論證”及“技術(shù)產(chǎn)品化”等“保障”工作,保障這一技術(shù)領(lǐng)域及相關(guān)行業(yè)的健康發(fā)展,來(lái)進(jìn)一步促進(jìn)資源向金字塔尖的前沿團(tuán)隊(duì)匯聚,支撐其開(kāi)拓工作。
大數(shù)據(jù)(巨量數(shù)據(jù)集合)是現(xiàn)代社會(huì)非常時(shí)髦的一個(gè)名詞。是數(shù)據(jù)科學(xué)的一個(gè)高階狀態(tài)。數(shù)據(jù)科學(xué)并沒(méi)有一個(gè)獨(dú)立的學(xué)科體系,統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘,數(shù)據(jù)庫(kù),分布式計(jì)算,云計(jì)算,信息可視化等技術(shù)或方法來(lái)對(duì)付數(shù)據(jù)。催生出了一些與大數(shù)據(jù)相關(guān)的職業(yè),通過(guò)對(duì)數(shù)據(jù)的分析挖掘來(lái)影響企業(yè)的商業(yè)決策。
國(guó)內(nèi),大數(shù)據(jù)的應(yīng)用處于萌芽狀態(tài),人才市場(chǎng)還不太成熟,每家公司對(duì)大數(shù)據(jù)工作的要求不盡相同:有的強(qiáng)調(diào)數(shù)據(jù)庫(kù)編程、有的突出應(yīng)用數(shù)學(xué)和統(tǒng)計(jì)學(xué)知識(shí)、有的則要求有咨詢公司相關(guān)的經(jīng)驗(yàn)、有些是希望能找到懂得產(chǎn)品和市場(chǎng)的應(yīng)用型人才。正因?yàn)槿绱?,很多公司?huì)針對(duì)自己的業(yè)務(wù)類型和團(tuán)隊(duì)分工,給這群與大數(shù)據(jù)打交道的人一些新的頭銜和定義:數(shù)據(jù)挖掘工程師、大數(shù)據(jù)專家、數(shù)據(jù)研究員、用戶分析專家等都是經(jīng)常在國(guó)內(nèi)公司里出現(xiàn)的Title,我們將其統(tǒng)稱為"大數(shù)據(jù)工程師"。
對(duì)于一些大公司來(lái)說(shuō),擁有碩博學(xué)歷的人是比較好的選擇,不過(guò)阿里巴巴集團(tuán)研究員薛貴榮強(qiáng)調(diào),學(xué)歷并不是最主要的因素,能有大規(guī)模處理數(shù)據(jù)的經(jīng)驗(yàn)并且有喜歡在數(shù)據(jù)海洋中尋寶的好奇心會(huì)更適合這個(gè)工作。想了解更多編程方面的分享請(qǐng)關(guān)注×××工宗號(hào):程序員大牛,里面也有分享這方面的文章和干貨資料。
找對(duì)好×××,連滾帶爬往前走
現(xiàn)在已經(jīng)不是一個(gè)單打獨(dú)斗,憑著跌落斷崖后找到一本秘籍閉關(guān)幾年就能橫掃天下的時(shí)代了,無(wú)論是像Hinton(推翻了BP算法的BP算法之父)這樣的泰斗,還是像何凱明(發(fā)best paper像一般人發(fā)paper一樣容易的神奇學(xué)霸)這樣的新秀,都處在各自非??孔V的團(tuán)隊(duì)中與小伙伴們共同探索。好×××不需要多,有一兩個(gè)真正靠譜的就已經(jīng)足夠,至于隊(duì)友的重要性后文會(huì)慢慢闡釋。
菜鳥(niǎo)筑基這部分最后要給出的建議就是,千萬(wàn)不要在這個(gè)階段停留太久,不要等“準(zhǔn)備好了”再去著手實(shí)踐,因?yàn)檫@里的“準(zhǔn)備好了”往往包含菜鳥(niǎo)的不自信,不去進(jìn)一步提升自己是永遠(yuǎn)準(zhǔn)備不“好”的。一般情況下,想做“計(jì)算機(jī)視覺(jué)”或者“自然語(yǔ)言處理”等偏AI方向的同學(xué)在完成吳恩達(dá)的《深度學(xué)習(xí)》課程后,想做“數(shù)據(jù)挖掘”的同學(xué)在完成吳恩達(dá)的《機(jī)器學(xué)習(xí)》課程后,就可以選擇相應(yīng)的實(shí)踐項(xiàng)目準(zhǔn)備進(jìn)入下一階段了。
那么我們?cè)撨x擇什么實(shí)踐手段呢?最佳的情況是有大神帶隊(duì)做真實(shí)項(xiàng)目,但是這樣的機(jī)會(huì)往往可遇而不可求,在此不展開(kāi)討論。普羅大眾型的辦法是參加一個(gè)大數(shù)據(jù)比賽項(xiàng)目,現(xiàn)在國(guó)內(nèi)的“阿里天池”以及國(guó)外的“Kaggle”都是開(kāi)放式的大數(shù)據(jù)比賽平臺(tái),平臺(tái)上會(huì)有各種組織發(fā)布的各類真實(shí)項(xiàng)目供大家實(shí)踐、比賽。讀到這里各位心里可能還存有很大的疑問(wèn):“就算學(xué)會(huì)了基本課程,在沒(méi)有人帶的情況下能上手實(shí)踐嗎?”,下文將陸續(xù)回答如何“連滾帶爬”的進(jìn)行實(shí)踐。
初入江湖
找到一個(gè)最高的baseline
這里的“baseline”可以理解為前人已經(jīng)做出成果,當(dāng)自己恰好需要去做相同工作時(shí)的參照。對(duì)于上文提到的情況,如果有大神帶隊(duì)進(jìn)行實(shí)踐的話,那么帶隊(duì)大神此前的實(shí)踐經(jīng)驗(yàn)就成為了全體小隊(duì)成員的“baseline”。那對(duì)于沒(méi)有“大神”資源的廣大讀者是否有更通用的解決辦法呢?答案是肯定的。如果讀者目前對(duì)于一類問(wèn)題無(wú)從下手,例如剛剛學(xué)完“深度學(xué)習(xí)”的課程,但是不知道如何去做“自然語(yǔ)言處理”類的項(xiàng)目,最好的辦法是利用好國(guó)內(nèi)的“萬(wàn)方”以及“知網(wǎng)”這樣的論文查詢平臺(tái),去查詢相關(guān)領(lǐng)域國(guó)內(nèi)普通高校的學(xué)位論文,這樣的論文絕大部分都是中文并且會(huì)在論文中介紹大量的基礎(chǔ)背景知識(shí),正好滿足了我們的需求。
有那么一句成功學(xué)的佳句是“每天叫醒我的不是鬧鐘而是夢(mèng)想”,這句話聽(tīng)起來(lái)很勵(lì)志,但對(duì)于90%的人來(lái)說(shuō)就是胡扯,我們回首望去發(fā)現(xiàn)每天叫醒我們的往往是“上班遲到后被扣的工資”或者是“晚到實(shí)驗(yàn)室后老板的殺氣”,這就是現(xiàn)實(shí),聽(tīng)起來(lái)很殘酷但是我們完全可以利用好它。具體到我們的升級(jí)以及項(xiàng)目推進(jìn)中,能讓我們不斷向前的最大動(dòng)力往往是“在DDL前無(wú)法完成任務(wù)后小伙伴們的鄙視”以及“完成quick win后帶來(lái)的成就感”。
做好這一點(diǎn)除了上一小節(jié)提到的要合理劃分任務(wù)之外,最重要的就是有一個(gè)靠譜的teamleader不斷的進(jìn)行推進(jìn)(push),每到既定節(jié)點(diǎn)后雷打不動(dòng)的推進(jìn)。最后要啰嗦一句,根據(jù)馬斯洛需求層次理論,夢(mèng)想應(yīng)該屬于模型頂層的“自我實(shí)現(xiàn)需求”,如果一個(gè)人可以被“夢(mèng)想”叫醒,那么這個(gè)人的其他需求應(yīng)該已經(jīng)被很好的滿足了,所以我在這里真誠(chéng)的祝福大家終有一天可以在早晨被自己的“夢(mèng)想”叫醒。
如何成為大數(shù)據(jù)工程師
由于目前大數(shù)據(jù)人才匱乏,對(duì)于公司來(lái)說(shuō),很難招聘到合適的人才—既要有高學(xué)歷,同時(shí)最好還有大規(guī)模數(shù)據(jù)處理經(jīng)驗(yàn)。因此很多企業(yè)會(huì)通過(guò)內(nèi)部挖掘。
今年8月,阿里巴巴舉辦了一個(gè)大數(shù)據(jù)競(jìng)賽,把天貓平臺(tái)上的數(shù)據(jù)拿出來(lái),去除敏感問(wèn)題后,放到云計(jì)算平臺(tái)上交予7000多支隊(duì)伍進(jìn)行比賽,比賽分為內(nèi)部賽和外部賽。“通過(guò)這個(gè)方式來(lái)激勵(lì)內(nèi)部員工,同時(shí)也發(fā)現(xiàn)外部人才,讓各行業(yè)的大數(shù)據(jù)工程師涌現(xiàn)出來(lái)?!?/p>
顏莉萍建議,目前長(zhǎng)期從事數(shù)據(jù)庫(kù)管理、挖掘、編程工作的人,包括傳統(tǒng)的量化分析師、Hadoop方面的工程師,以及任何在工作中需要通過(guò)數(shù)據(jù)來(lái)進(jìn)行判斷決策的管理者,比如某些領(lǐng)域的運(yùn)營(yíng)經(jīng)理等,都可以嘗試該職位,而各個(gè)領(lǐng)域的達(dá)人只要學(xué)會(huì)運(yùn)用數(shù)據(jù),也可以成為大數(shù)據(jù)工程師。
薪酬待遇
作為IT類職業(yè)中的“大熊貓”,大數(shù)據(jù)工程師的收入待遇可以說(shuō)達(dá)到了同類的頂級(jí)。根據(jù)顏莉萍的觀察,國(guó)內(nèi)IT、通訊、行業(yè)招聘中,有10%都是和大數(shù)據(jù)相關(guān)的,且比例還在上升。顏莉萍表示,“大數(shù)據(jù)時(shí)代的到來(lái)很突然,在國(guó)內(nèi)發(fā)展勢(shì)頭激進(jìn),而人才卻非常有限,現(xiàn)在完全是供不應(yīng)求的狀況?!痹诿绹?guó),大數(shù)據(jù)工程師平均每年薪酬高達(dá)17.5萬(wàn)美元,而據(jù)了解,在國(guó)內(nèi)頂尖互聯(lián)網(wǎng)類公司,同一個(gè)級(jí)別大數(shù)據(jù)工程師的薪酬可能要比其他職位高20%至30%,且頗受企業(yè)重視。
職業(yè)發(fā)展路徑
由于大數(shù)據(jù)人才數(shù)量較少,因此大多數(shù)公司的數(shù)據(jù)部門(mén)一般都是扁平化的層級(jí)模式,大致分為數(shù)據(jù)分析師、資深研究員、部門(mén)總監(jiān)3個(gè)級(jí)別。大公司可能按照應(yīng)用領(lǐng)域的維度來(lái)劃分不同團(tuán)隊(duì),而在小公司則需要身兼數(shù)職。有些特別強(qiáng)調(diào)大數(shù)據(jù)戰(zhàn)略的互聯(lián)網(wǎng)公司則會(huì)另設(shè)最高職位—如阿里巴巴的首席數(shù)據(jù)官。“這個(gè)職位的大部分人會(huì)往研究方向發(fā)展,成為重要數(shù)據(jù)戰(zhàn)略人才?!鳖伬蚱颊f(shuō)。另一方面,大數(shù)據(jù)工程師對(duì)商業(yè)和產(chǎn)品的理解,并不亞于業(yè)務(wù)部門(mén)員工,因此也可轉(zhuǎn)向產(chǎn)品部或市場(chǎng)部,乃至上升為公司的高級(jí)管理層。
另外,大數(shù)據(jù)初學(xué)者有什么不懂的可以關(guān)注微信公眾號(hào):程序員大牛和轉(zhuǎn)發(fā)——我剛整理了一份大數(shù)據(jù)2018最新的0基礎(chǔ)入門(mén)和進(jìn)階教程,無(wú)私分享
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。