您好,登錄后才能下訂單哦!
機(jī)器學(xué)習(xí)處于優(yōu)勢(shì)地位。特別是在模式識(shí)別方面,機(jī)器學(xué)習(xí)是首選方法。其應(yīng)用的有形示例包括欺詐檢測(cè),圖像識(shí)別,預(yù)測(cè)性維護(hù)和列車延遲預(yù)測(cè)系統(tǒng)。在日常機(jī)器學(xué)習(xí)(ML)和尋求部署所獲得的知識(shí)的過(guò)程中,我們通常會(huì)遇到這三個(gè)主要問(wèn)題(但不是唯一的問(wèn)題)。
數(shù)據(jù)質(zhì)量 - 來(lái)自多個(gè)時(shí)間范圍內(nèi)的多個(gè)來(lái)源的數(shù)據(jù)可能難以整理成干凈且連貫的數(shù)據(jù)集,這些數(shù)據(jù)集將從機(jī)器學(xué)習(xí)中獲得最大收益。典型問(wèn)題包括數(shù)據(jù)丟失,數(shù)據(jù)值不一致,自相關(guān)等。
<< 下載數(shù)據(jù)質(zhì)量權(quán)威指南 >>
業(yè)務(wù)相關(guān)性 - 雖然支持機(jī)器學(xué)習(xí)革命的許多技術(shù)進(jìn)展比以往任何時(shí)候都更快,但是今天的許多應(yīng)用程序都沒(méi)有考慮到商業(yè)價(jià)值。
操作模型 - 一旦模型經(jīng)歷了構(gòu)建和調(diào)整周期,將機(jī)器學(xué)習(xí)過(guò)程的結(jié)果部署到更廣泛的業(yè)務(wù)中至關(guān)重要。這是一個(gè)難以跨越的橋梁,因?yàn)轭A(yù)測(cè)建模人員通常不是IT解決方案專家,反之亦然。
機(jī)器學(xué)習(xí)背后還有一整套算法工具箱,每個(gè)算法都可以使用所謂的超參數(shù)進(jìn)行調(diào)整,以獲得更高的精度。例如,對(duì)于流行的k-最近鄰算法,k指的是我們想要考慮的鄰居的數(shù)量。在神經(jīng)網(wǎng)絡(luò)中,這將涵蓋網(wǎng)絡(luò)的整個(gè)架構(gòu)。
數(shù)據(jù)科學(xué)家今天所做的一項(xiàng)關(guān)鍵任務(wù)是為給定問(wèn)題找到正確的算法并正確地“設(shè)置”它。但實(shí)際上,任務(wù)范圍要大得多。數(shù)據(jù)科學(xué)家必須了解問(wèn)題的業(yè)務(wù)視角,解決數(shù)據(jù)情況,適當(dāng)準(zhǔn)備數(shù)據(jù)并獲得有助于評(píng)估的模型。這通常是遵循跨行業(yè)標(biāo)準(zhǔn)數(shù)據(jù)挖掘過(guò)程(CRISP-DM)的循環(huán)過(guò)程[1]。
相應(yīng)地,機(jī)器學(xué)習(xí)領(lǐng)域的項(xiàng)目很復(fù)雜,需要多個(gè)人在一系列領(lǐng)域(商業(yè),IT,數(shù)據(jù)科學(xué))獲得資格的時(shí)間。此外,通常不清楚結(jié)果將是什么:因此,在這個(gè)意義上,這樣的項(xiàng)目是有風(fēng)險(xiǎn)的。
直到今天,數(shù)據(jù)科學(xué)項(xiàng)目無(wú)法實(shí)現(xiàn)自動(dòng)化。但是,有些情況下,項(xiàng)目的某些步驟可以自動(dòng)化:這就是自動(dòng)機(jī)器學(xué)習(xí)(AutoML)概念背后的原因。例如,AutoML可以幫助選擇算法。數(shù)據(jù)科學(xué)家通常比較幾個(gè)算法對(duì)問(wèn)題的結(jié)果,并在考慮一系列因素(例如質(zhì)量,復(fù)雜性/持續(xù)時(shí)間,魯棒性)的情況下選擇一個(gè)算法。在某些情況下可以自動(dòng)化的另一個(gè)方面是超參數(shù)的設(shè)置:許多算法可以通過(guò)參數(shù)及其相對(duì)于特定問(wèn)題優(yōu)化的質(zhì)量來(lái)調(diào)整。
AutoML是一種資源,可以加速那些部件或單個(gè)步驟自動(dòng)化的數(shù)據(jù)科學(xué)項(xiàng)目,從而提高生產(chǎn)力。例如,AutoML在算法評(píng)估中非常有用。因此,許多庫(kù)和工具都采用AutoML作為補(bǔ)充功能。值得注意的例子包括auto-sklearn(在Python社區(qū)中)或DataRobot,它專門研究AutoML。以下示例摘自RapidMiner,顯示了如何使用助手比較不同的算法,并快速找到針對(duì)特定問(wèn)題的最佳算法[2]:
盡管如此,AutoML不應(yīng)該被理解為一種萬(wàn)能的解決方案,能夠完全自動(dòng)化數(shù)據(jù)科學(xué)項(xiàng)目并且不需要數(shù)據(jù)科學(xué)家。從這個(gè)意義上說(shuō),不幸的是,它不是圣杯。
與其他專業(yè)領(lǐng)域一樣,自動(dòng)化首先是繁瑣的技術(shù)任務(wù),其中高技能專業(yè)人員否則會(huì)花費(fèi)大部分時(shí)間系統(tǒng)地嘗試某些參數(shù)集,然后比較結(jié)果 - 這項(xiàng)工作最好留給機(jī)器。
剩下的是人類仍然需要解決的大量挑戰(zhàn)。這首先要了解實(shí)際問(wèn)題本身,并涵蓋從數(shù)據(jù)工程到部署的各種各樣的,非常耗時(shí)的任務(wù)。AutoML是一個(gè)很有用的工具,但它還不是圣杯。
更多:(http://www.o9qh.com)
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。