您好,登錄后才能下訂單哦!
呆鳥說:“數(shù)學,讓我頭痛,翻譯本文讓我頭疼欲裂。不過,數(shù)據(jù)分析師不懂點數(shù)學,也實在說不過去,所以就有了這篇文章?!?/p>
介紹
數(shù)學是現(xiàn)代科學的基石,幾乎所有現(xiàn)代科學都與數(shù)學密不可分,尤其是數(shù)據(jù)科學與機器學習。
要想成為資深數(shù)據(jù)分析師,必須具備一定的數(shù)學知識,熟練應用數(shù)學技巧,才能更好地使用程序自帶的算法。比如說,理解了算法背后的數(shù)學知識,能更好地理解用戶推薦系統(tǒng)的機制。
總之,學好數(shù)學對數(shù)據(jù)分析師來說,有百利而無一害,既可以讓你在工作中脫穎而出,還可以讓你更加自信。相信我,了解算法背后的運行機制,比那些只會使用工具的同行會有更多優(yōu)勢。
毋庸置疑,成為頂級數(shù)據(jù)分析師并不容易,高超的編程技能、精明的商業(yè)頭腦、對數(shù)據(jù)的獨特見解,以及強烈的好奇心,這些一樣都不可少。 而本文要告訴你的是,想要成為優(yōu)秀數(shù)據(jù)分析師要掌握哪些必要的數(shù)學知識。
新手入門
計算機硬件、商務零售、醫(yī)療保健、商業(yè)管理等領域浸淫已久的專業(yè)人士想轉(zhuǎn)行數(shù)據(jù)分析這一領域,首先要掌握一些必要的數(shù)學知識。
雖然,有人可能會覺得之前的工作已經(jīng)處理過大量的數(shù)據(jù)報表、完成了大量的數(shù)據(jù)計算和趨勢預測工作,但數(shù)據(jù)分析工作所需的數(shù)學技能和這些數(shù)字工作的區(qū)別其實很大。
為什么數(shù)學如此重要 - 因為數(shù)據(jù)科學是科學,而不只是數(shù)據(jù)
網(wǎng)絡工程師也好,商業(yè)分析師也罷,即便每天處理很多數(shù)據(jù),但他們的工作重點并不是數(shù)據(jù)建模。因為時間壓力,往往只是“用數(shù)據(jù)完成手頭上的工作,趕緊過關了事”,而不是深入研究數(shù)據(jù),探索數(shù)據(jù)的內(nèi)在關系。不管怎樣, 數(shù)據(jù)科學是科學,而不只是數(shù)據(jù)。那么數(shù)學能力都有哪些呢?可以參考如下幾點:
研究底層動態(tài),創(chuàng)建數(shù)學實體或信息流程模型
提出假設命題
嚴格評估數(shù)據(jù)源的質(zhì)量
量化及預測數(shù)據(jù)的不準確程度
培養(yǎng)識別信息流潛在模式的敏感度
能夠理解模型的局限
能夠理解數(shù)學論證及背后的抽象邏輯
這些都是為了培養(yǎng)對理解枯燥的數(shù)字、抽象的數(shù)學實體及其性質(zhì)和關系的能力,在大學四年的數(shù)學課程中即可學到,并且,不必非得從頂級大學中以優(yōu)異的成績畢業(yè)才能獲得這些數(shù)學能力。
況且,我要說的還不是大一學的微積分,而是一些簡單的東西,比如數(shù)字2,請看下面這個場景…
一大早,剛到辦公室,正準備開始一天的工作,著手編制復雜的商業(yè)圖表。領導突然給你布置了一項極具挑戰(zhàn)的任務 --- “2分鐘內(nèi)證明2的平方根不是有理數(shù)?!?/p>
啥……,您剛才說什么有理?
瞧,不懂點數(shù)學,直接就懵逼了……
打斷一下,告訴我怎么干能成功就可以了
這正是我想說的,想學好數(shù)據(jù)分析沒有一定之規(guī)。數(shù)據(jù)分析,從根本上來說,是一種職能,而非行業(yè)領域,數(shù)據(jù)分析可以處理×××診斷,社交行為分析等各類現(xiàn)象,由此產(chǎn)生的交叉可能性包括多維數(shù)組數(shù)學對象、統(tǒng)計分布、優(yōu)化客觀函數(shù)等等等等……
打住,您先歇會兒……
這都說的是什么東西啊?真的假的?
怎么說呢,要想玩轉(zhuǎn)數(shù)據(jù)分析,下面這些內(nèi)容可要費點心思好好研究一下。
一、函數(shù)、變量、方程、圖
學什么
從最簡單的學起,比如線性方程、二項式定理及其性質(zhì)。
對數(shù)、指數(shù)、多項式函數(shù)、有理數(shù)
基本幾何定理、三角恒等式
實數(shù)和復數(shù)及其基本性質(zhì)
級數(shù)、求和與不等式
繪圖、制圖、笛卡爾系和極坐標系、圓錐曲線
怎么用
要理解百萬量級數(shù)據(jù)排序后再搜索會快多少,首先要理解什么是二分法搜索,要理解二分法搜索,就要懂得什么是對數(shù),什么是遞歸方程式。還有,如果想分析時間序列,就要了解周期函數(shù)和指數(shù)衰減的概念。
在哪兒學
數(shù)據(jù)科學的數(shù)學 - Coursera
代數(shù)簡介 - edX
可汗學院 - 代數(shù)
二、統(tǒng)計學
學什么
統(tǒng)計學可是數(shù)據(jù)分析師的必備技能。想做數(shù)據(jù)分析必須要有堅實的統(tǒng)計學與概率論基礎,這點就不用多說了。除了新出現(xiàn)的神經(jīng)網(wǎng)絡機器學習,傳統(tǒng)的機器學習其實就是統(tǒng)計學習,比如李航的統(tǒng)計學習方法講的就是機器學習原理。統(tǒng)計學的內(nèi)容非常廣泛,我們只要關注最核心的概念就可以了。
數(shù)據(jù)摘要與描述性統(tǒng)計:集中趨勢、方差、協(xié)方差、相關性
概率論基礎:基本理念、期望、概率演算、貝葉斯定理、條件概率
概率分布函數(shù):均勻分布、正態(tài)分布、二項分布、卡方分布、學生t分布、中心極限定理
采樣、測量、誤差、隨機數(shù)生成
假設檢驗:A/B檢驗、置信區(qū)間、P值
方差分析(ANOVA)、t檢驗
線性回歸、正則化
怎么用
面試的時候就會用得上,相信我,作為準數(shù)據(jù)科學家,如果把統(tǒng)計學的概念搞得清清楚楚、明明白白,一定能讓面試官刮目相看。當上了數(shù)據(jù)科學家,統(tǒng)計學更是常用的工具。
在哪兒學
用 R 學統(tǒng)計學專業(yè)?—?Coursera,杜克大學
Python 數(shù)據(jù)科學 - 統(tǒng)計學與概率論?—edX,加利福尼亞大學
商務統(tǒng)計與分析專業(yè)課?—Coursera,萊斯大學
三、線性代數(shù)
學什么
Facebook上的朋友推薦、Spotify上的歌曲推薦,通過深度學習把自拍照片轉(zhuǎn)換為薩爾瓦多·達利風格的人像畫,試問這些操作的共同點是什么?其實就是它們都離不開矩陣和矩陣代數(shù)的知識。
線性代數(shù)這一重要的數(shù)學分支,研究的是機器學習算法如何從數(shù)據(jù)流中獲取有價值信息。下列是必學的線性代數(shù)知識:
矩陣和向量的基本性質(zhì):標量乘法、線性變換、轉(zhuǎn)置、共軛、秩與行列式
內(nèi)積與外積、矩陣乘法規(guī)則及其算法、逆矩陣
特殊矩陣:方陣、單位矩陣、三角矩陣、稀疏矩陣、密集矩陣、單位向量、對稱矩陣、厄米矩陣(又稱自共軛矩陣)、斜厄米矩陣和酉矩陣
矩陣分解概念:LU分解、高斯消元法、求解 Ax = b 線性方程組
向量空間、基向量、擴張空間、正交性、線性最小二乘法
特征值、特征向量、對角化與奇異值分解(SVD)
怎么用
使用降維技術實現(xiàn)主成分分析時,要用奇異值分解來縮減維度,讓數(shù)據(jù)集參數(shù)變得更少。所有神經(jīng)網(wǎng)絡算法都使用線性代數(shù)處理網(wǎng)絡結構和學習操作。
在哪兒學
線性代數(shù):從基礎到精通 —edX,UT Austin
機器學習中的數(shù)學知識:線性代數(shù) —Coursera,帝國理工學院,倫敦
五、微積分
學什么
在上大學的時候,微積分是最讓人頭疼的課程,不過,在數(shù)據(jù)科學和機器學習領域里,微積分可是無處不在,最簡單的普通最小二乘法問題的分析解決方案離不開微積分,神經(jīng)網(wǎng)絡中用于學習新模式的反向傳播里也少不了微積分??梢哉f,微積分是你的技能庫里最有價(zhi)值(qian)的技能。下列是要掌握的微積分知識點:
單變量函數(shù)、極限與連續(xù)、可微性
均值定理、不定式和洛必達法則
最大值與最小值
乘積和鏈式法則
泰勒級數(shù)、無限級數(shù)求和與積分
積分中值定理與基本公式,定積分與不定積分方程式
Beta 和 Gamma 函數(shù)
多變量函數(shù)、極限與連續(xù)、偏導數(shù)
常微分方程與偏微分方程的基礎知識(不必了解過于高級的內(nèi)容)
怎么用
理解邏輯回歸算法需要微積分的知識,比如怎樣通過“梯度下降”找到最小損失函數(shù)。 要了解梯度下降的機制,就會用到微積分的概念 - 梯度、導數(shù)、極限和鏈式法則。
在哪兒學
大學預備課 - 微積分?—edX, TU Delft
可汗學院 - 微積分
機器學習中的數(shù)學知識:多變量微積分 —Coursera,帝國理工學院,倫敦
五、離散數(shù)學
學什么
探討數(shù)據(jù)科學的數(shù)學知識時,很少會談及離散數(shù)學這個話題,但幾乎所有現(xiàn)代數(shù)據(jù)科學都需要計算系統(tǒng)的支持,而這些系統(tǒng)的核心恰恰是離散數(shù)學。大一學生在學習離散數(shù)學時會被告知:初學者一定要掌握日常分析項目使用的算法和數(shù)據(jù)結構。離散數(shù)學核心知識點如下:
集合、子集、冪集
計數(shù)、組合、可數(shù)性
基本證明技巧:歸納法、反證法
歸納、演繹和命題邏輯基礎
數(shù)據(jù)結構基礎:堆棧、隊列、圖、數(shù)組、哈希表、樹
圖形性質(zhì):連通分支、度、最大流與最小割、染×××
遞歸關系與方程
函數(shù)增長率與大O符號法
怎么用
對于任何社交網(wǎng)絡分析,都需要理解圖形性質(zhì)與快速算法來查找和遍歷網(wǎng)絡。不管選擇哪種算法都要理解算法的時空復雜性,比如隨著輸入數(shù)據(jù)大小的變化,運算所需的時空需求如何變化,這時通常會用到大O符號法。
在哪兒學
計算機科學專業(yè)課:離散數(shù)學簡介?—Coursera, Univ. of California San Diego
數(shù)學思想簡介?—Coursera,斯坦福大學
精通離散數(shù)學:集合與數(shù)學邏輯?—Udemy
六、最優(yōu)化、運籌學
學什么
這一部分主題說得都是與應用數(shù)學相關的知識,最常用的是計算機科學原理、控制論、運籌學等。理解這些概念對機器學習實踐來說非常重要。實際上,每種機器學習算法都要在限制條件下實現(xiàn)誤差估計最小化,這就是優(yōu)化。 要學習的內(nèi)容如下:
最優(yōu)化基礎:如何規(guī)劃命題
最大值、最小值、凸函數(shù)、全局解
線性規(guī)劃、單純形算法
整數(shù)規(guī)劃
約束規(guī)劃、背包問題
怎么用
用最小二乘法損失函數(shù)解決簡單線性回歸問題一般能得到較為精確的分析解,但在解決邏輯回歸問題時就不行了。要想理解其中的原因,就要理解最優(yōu)化里的凸性概念。這個概念還告訴我們,在絕大多數(shù)機器學習問題里要能夠接受近似解,這是個毋庸置疑的事實。
在哪兒學
商業(yè)分析最優(yōu)化?—edX,麻省理工學院
離散優(yōu)化?—Coursera,墨爾本大學
確定性優(yōu)化?—edX,佐治亞理工學院
相關文獻
15門數(shù)據(jù)科學的數(shù)學課 - 慕課
如何學習數(shù)據(jù)科學中的數(shù)學
數(shù)據(jù)分析師簡歷里要有多少數(shù)學與統(tǒng)計學內(nèi)容?
入門數(shù)據(jù)科學與機器學習必學的19門數(shù)學與統(tǒng)計學慕課課程
學習機器學習中的數(shù)學
結語
即使數(shù)學不好也不用過于擔心,更不用迷茫無助。想成為資深數(shù)據(jù)分析師要學的東西很多,如果平時不怎么應用數(shù)學知識,就更要下些工夫。但是,如今這個時代最好的地方就是網(wǎng)上有超多優(yōu)秀的資源,比如各類視頻教程。只要花些時間,投入精力,就可以找到適合自己的學習資源。
我可以保證,即便在大學學過這些內(nèi)容,現(xiàn)在重溫或?qū)W習新的數(shù)學知識以后,你會發(fā)現(xiàn)這些時間與精力沒有白費,一定能一點一點地開始理解數(shù)據(jù)分析與機器學習項目背后所隱藏的旋律。這就是進階成為數(shù)據(jù)科學家所要邁出的一大步。
如有任何問題或想法,請聯(lián)系作者 Tirthajyoti. 也可以去看看他的 GitHub項目 ,查看更多 Python、R 與 MATLAB 代碼及機器學習資源。如果喜歡數(shù)據(jù)科學與機器學習,也可以添加作者為領英好友或在 Twitter上加關注。
作者簡介: Tirthajyoti Sarkar ,半導體專家、電子信息工程博士、專業(yè)博主、科技作家、機器學習和數(shù)據(jù)科學的忠粉。
Tirthajyoti Sarkar
譯注:因為數(shù)學不好,雖然查證了一些數(shù)學書籍,也咨詢了學數(shù)學與統(tǒng)計的朋友,但畢竟內(nèi)容較多,難免有所疏漏,如有讀者發(fā)現(xiàn)錯誤,請留言告知,避免誤人子弟,多謝多謝!
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。