溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

讓谷歌折戟的AI流行病預(yù)測(cè),在今天如何被創(chuàng)業(yè)公司攻占?

發(fā)布時(shí)間:2020-08-06 19:24:50 來(lái)源:ITPUB博客 閱讀:128 作者:naojiti 欄目:互聯(lián)網(wǎng)科技

預(yù)測(cè)未知,一直是人類十分向往的能力。遠(yuǎn)不說(shuō)國(guó)人熟悉的周易八卦、唐代道士編寫(xiě)的《推背圖》,還有西方人熟知的占星術(shù)、中世紀(jì)流行起來(lái)的塔羅牌,近的比如說(shuō)當(dāng)年根據(jù) “2012世界末日”這一瑪雅預(yù)言影響下出現(xiàn)的全民狂熱和商業(yè)狂歡,依然讓我們記憶猶新。

現(xiàn)在“不問(wèn)蒼生問(wèn)鬼神”的時(shí)代已經(jīng)過(guò)去,我們對(duì)物理世界及社會(huì)經(jīng)濟(jì)的確定性的、經(jīng)驗(yàn)性的甚至概率性的預(yù)測(cè)都已輕車熟路。但比如說(shuō)像“蝴蝶效應(yīng)”描述的高度復(fù)雜的、超多變量以及超大數(shù)據(jù)量的預(yù)測(cè),人類還是束手無(wú)策么?

答案并不是。

近日,我國(guó)武漢新型冠狀病毒疫情的爆發(fā)引起世界衛(wèi)生組織和全球多地衛(wèi)生機(jī)構(gòu)的密切關(guān)注。其中,《連線》雜志報(bào)道了“一家加拿大公司BlueDot通過(guò)AI監(jiān)測(cè)平臺(tái)率先預(yù)測(cè)和發(fā)布武漢出現(xiàn)傳染疫情”的新聞,得到國(guó)內(nèi)媒體的廣泛關(guān)注。這似乎是我們?cè)凇邦A(yù)測(cè)未來(lái)”這件事上最想看到的成果——借助大數(shù)據(jù)沉淀基礎(chǔ)和AI的推斷,人類似乎正能夠揣摩“天意”,揭示出原本深藏于混沌之中的因果規(guī)律,從而在天災(zāi)降臨前試圖挽救世界。

今天我們就從傳染病預(yù)測(cè)出發(fā),看看AI是如何一步步走向“神機(jī)妙算”的。

谷歌GFT頻喊“狼來(lái)了”:流感大數(shù)據(jù)的狂想曲

用AI預(yù)測(cè)傳染病顯然不是Bluedot的專利,其實(shí)早在2008年,今天的AI“強(qiáng)手”谷歌,就曾進(jìn)行過(guò)一次不太成功的嘗試。

讓谷歌折戟的AI流行病預(yù)測(cè),在今天如何被創(chuàng)業(yè)公司攻占?

2008年谷歌推出一個(gè)預(yù)測(cè)流感流行趨勢(shì)的系統(tǒng)——Google Flu Trends(谷歌流感趨勢(shì),以下簡(jiǎn)稱GFT)。GFT一戰(zhàn)成名是在2009年美國(guó)H1N1爆發(fā)的幾周前,谷歌工程師在《Nature》雜志上發(fā)表了一篇論文,通過(guò)谷歌累積的海量搜索數(shù)據(jù),成功預(yù)測(cè)H1N1在全美范圍的傳播。就流感的趨勢(shì)和地區(qū)分析中,谷歌用幾十億條檢索記錄,處理了4.5億個(gè)不同的數(shù)字模型,構(gòu)造出一個(gè)流感預(yù)測(cè)指數(shù),其結(jié)果與美國(guó)疾病控制和預(yù)防中心(CDC)官方數(shù)據(jù)的相關(guān)性高達(dá)97%,但要比CDC提前了整整2周。在疫情面前,時(shí)間就是生命,速度就是財(cái)富,如果GFT能一直保持這種“預(yù)知”能力,顯然可以為整個(gè)社會(huì)提前控制傳染病疫情贏得先機(jī)。

然而,預(yù)言神話沒(méi)有持續(xù)多久。2014年,GFT又再次受到媒體關(guān)注,但這一次卻是因?yàn)樗愀獾谋憩F(xiàn)。研究人員2014年又在《Science》雜志發(fā)布 “谷歌流感的寓言:大數(shù)據(jù)分析的陷阱” 一文,指出在2009年,GFT沒(méi)有能預(yù)測(cè)到非季節(jié)性流感A-H1N1。從2011年8月到2013年8月的108周里,GFT有100周高過(guò)了CDC報(bào)告的流感發(fā)病率。高估了多少呢?在2011-2012季,GFT預(yù)測(cè)的發(fā)病率是CDC報(bào)告值的1.5倍多;而到2012-2013季,GFT預(yù)測(cè)流感發(fā)病率已是CDC報(bào)告值的2倍多。

讓谷歌折戟的AI流行病預(yù)測(cè),在今天如何被創(chuàng)業(yè)公司攻占?

(圖表來(lái)自The Parable of Google Flu: Traps in Big Data Analysis | Science,2014)

盡管GFT在2013年調(diào)整了算法,并回應(yīng)稱出現(xiàn)偏差的罪魁禍?zhǔn)资敲襟w對(duì)GFT的大幅報(bào)道導(dǎo)致人們的搜索行為發(fā)生了變化,GFT預(yù)測(cè)的2013-2014季的流感發(fā)病率,仍然高于CDC報(bào)告值1.3倍。并且研究人員前面發(fā)現(xiàn)的系統(tǒng)性誤差仍然存在,也就是“狼來(lái)了”的錯(cuò)誤仍然在犯。

到底GFT遺漏了哪些因素,讓這個(gè)預(yù)測(cè)系統(tǒng)陷入窘境?

根據(jù)研究人員分析,GFT的大數(shù)據(jù)分析出現(xiàn)如此大的系統(tǒng)性誤差,其收集特征和評(píng)估方法可能存在以下問(wèn)題:

一、大數(shù)據(jù)傲慢(Big Data Hubris)

所謂“大數(shù)據(jù)傲慢”,就是谷歌工程師給出的前提假設(shè)就是,通過(guò)用戶搜索關(guān)鍵詞得到的大數(shù)據(jù)包含的即是流感疾病的全數(shù)據(jù)收集,可以完全取代傳統(tǒng)數(shù)據(jù)收集(采樣統(tǒng)計(jì)),而不是其補(bǔ)充。也就是GFT認(rèn)為“采集到的用戶搜索信息”數(shù)據(jù)與 “某流感疫情涉及的人群”這個(gè)總體完全相關(guān)。這一 “自大”的前提假設(shè)忽視了數(shù)據(jù)量巨大并不代表數(shù)據(jù)的全面和準(zhǔn)確,因而出現(xiàn)在2009年成功預(yù)測(cè)的數(shù)據(jù)庫(kù)樣本不能涵蓋在之后幾年出現(xiàn)的新的數(shù)據(jù)特征。也是因?yàn)檫@份“自負(fù)”,GFT也似乎沒(méi)有考慮引入專業(yè)的健康醫(yī)療數(shù)據(jù)以及專家經(jīng)驗(yàn),同時(shí)也并未對(duì)用戶搜索數(shù)據(jù)進(jìn)行“清洗”和“去噪”,從而導(dǎo)致此后流行病發(fā)病率估值過(guò)高但又無(wú)力解決的問(wèn)題。

二、搜索引擎演化

同時(shí)搜索引擎的模式也并非一成不變的,谷歌在2011年之后推出“推薦相關(guān)搜索詞”,也就是我們今天很熟悉的搜索關(guān)聯(lián)詞模式。

比如針對(duì)流感搜索詞,給出相關(guān)尋求流感治療的list,2012年后還提供相關(guān)診斷術(shù)語(yǔ)的推薦。研究人員分析,這些調(diào)整有可能人為推高了一些搜索,并導(dǎo)致谷歌對(duì)流行發(fā)病率的高估。舉例來(lái)說(shuō),當(dāng)用戶搜索“喉嚨痛”,谷歌會(huì)在推薦關(guān)鍵詞給出“喉嚨痛和發(fā)燒”、“如何治療喉嚨痛”等推薦,這時(shí)用戶可能會(huì)出于好奇等原因進(jìn)行點(diǎn)擊,造成用戶使用的關(guān)鍵詞并非用戶本意的現(xiàn)象,從而影響GFT搜集數(shù)據(jù)的準(zhǔn)確性。

讓谷歌折戟的AI流行病預(yù)測(cè),在今天如何被創(chuàng)業(yè)公司攻占?

而用戶的搜索行為反過(guò)來(lái)也會(huì)影響GFT的預(yù)測(cè)結(jié)果,比如媒體對(duì)于流感流行的報(bào)道會(huì)增加與流感相關(guān)的詞匯的搜索次數(shù),進(jìn)而影響GFT的預(yù)測(cè)。這就像量子力學(xué)家海森堡指出的,在量子力學(xué)中存在的“測(cè)不準(zhǔn)原理”說(shuō)明的一樣,“測(cè)量即干涉”,那么,在充斥媒體報(bào)道和用戶主觀信息的搜索引擎的喧囂世界里,也同樣存在“預(yù)測(cè)即干涉”悖論。搜索引擎用戶的行為并不完全是自發(fā)產(chǎn)生,媒體報(bào)道、社交媒體熱點(diǎn)、搜索引擎推薦甚至大數(shù)據(jù)推薦都在影響用戶心智,造成用戶特定搜索數(shù)據(jù)的集中爆發(fā)。

為什么GFT的預(yù)測(cè)總是偏高?根據(jù)這一理論,我們可以知道,一旦GFT發(fā)布的流行病預(yù)測(cè)指數(shù)升高,立刻會(huì)引發(fā)媒體報(bào)道,從而導(dǎo)致更多相關(guān)信息搜索,從而又強(qiáng)化GFT的疫情判斷,無(wú)論如何調(diào)整算法,也改變不了“測(cè)不準(zhǔn)”的結(jié)果。

三、相關(guān)而非因果

研究人員指出,GFT的根源問(wèn)題在于,谷歌工程師并不清楚搜索關(guān)鍵詞和流感傳播之間到底有什么因果聯(lián)系,而只是關(guān)注數(shù)據(jù)之間的——統(tǒng)計(jì)學(xué)相關(guān)性特征。過(guò)度推崇“相關(guān)”而忽略“因果”就會(huì)導(dǎo)致數(shù)據(jù)失準(zhǔn)的情況。比如,以“流感”為例,如果一段時(shí)間該詞搜索量暴漲,可能是因?yàn)橥瞥鲆徊俊读鞲小返碾娪盎蚋枨⒉灰欢ㄒ馕吨鞲姓娴脑诒l(fā)。

一直以來(lái),盡管外界一直希望谷歌能夠公開(kāi)GFT的算法,谷歌并沒(méi)有選擇公開(kāi)。這讓很多研究人員質(zhì)疑這些數(shù)據(jù)是否可以重復(fù)再現(xiàn)或者存在更多商業(yè)上的考慮。他們希望應(yīng)該將搜索大數(shù)據(jù)和傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)(小數(shù)據(jù))結(jié)合起來(lái),創(chuàng)建對(duì)人類行為更深入、準(zhǔn)確的研究。

顯然,谷歌并沒(méi)有重視這一意見(jiàn)。最終在2015年GFT正式下線。但其仍在繼續(xù)收集相關(guān)用戶的搜索數(shù)據(jù),僅提供給美國(guó)疾控中心以及一些研究機(jī)構(gòu)使用。

為什么BlueDot率先成功預(yù)測(cè):AI算法與人工分析的協(xié)奏曲

眾所周知,谷歌在當(dāng)時(shí)已經(jīng)在布局人工智能,2014年收購(gòu)DeepMind,但依然保持它的獨(dú)立運(yùn)營(yíng)。同時(shí),谷歌也沒(méi)有GFT再投入更多關(guān)注,因此也并未考慮將AI加入到GFT的算法模型當(dāng)中,而是選擇了讓GFT走向“安樂(lè)死”。

幾乎在同一時(shí)期,今天我們所見(jiàn)到的BlueDot誕生。

BlueDot是由傳染病專家卡姆蘭·克汗(Kamran Khan)建立流行病自動(dòng)監(jiān)測(cè)系統(tǒng),通過(guò)每天分析65種語(yǔ)言的約10萬(wàn)篇文章,來(lái)跟蹤100多種傳染病爆發(fā)情況。他們?cè)噲D用這些定向數(shù)據(jù)收集來(lái)獲知潛在流行傳染病爆發(fā)和擴(kuò)散的線索。BlueDot一直使用自然語(yǔ)言處理(NLP)和機(jī)器學(xué)習(xí)(ML)來(lái)訓(xùn)練該“疾病自動(dòng)監(jiān)測(cè)平臺(tái)”,這樣不僅可以識(shí)別和排除數(shù)據(jù)中的無(wú)關(guān)“噪音”,比如,系統(tǒng)識(shí)別這是蒙古炭疽病的爆發(fā),還僅僅是1981年成立的重金屬樂(lè)隊(duì)“炭疽”的重聚。又比如GFT僅僅將“流感”相關(guān)搜索的用戶理解為可能的流感病患者,顯然出現(xiàn)過(guò)多不相關(guān)用戶而造成流行病準(zhǔn)確率的高估。這也是BlueDot區(qū)別于GFT在對(duì)關(guān)鍵數(shù)據(jù)進(jìn)行甄別的優(yōu)勢(shì)之處。

就像在這次在新型冠狀病毒疫情的預(yù)測(cè)中, 卡姆蘭表示,BlueDot通過(guò)搜索外語(yǔ)新聞報(bào)道,動(dòng)植物疾病網(wǎng)絡(luò)和官方公告來(lái)找到疫情信息源頭。但該平臺(tái)算法不使用社交媒體的發(fā)布內(nèi)容,因?yàn)檫@些數(shù)據(jù)太過(guò)雜亂容易出現(xiàn)更多“噪音”。

讓谷歌折戟的AI流行病預(yù)測(cè),在今天如何被創(chuàng)業(yè)公司攻占?

關(guān)于病毒爆發(fā)后的傳播路徑預(yù)測(cè),BlueDot更傾向于使用訪問(wèn)全球機(jī)票數(shù)據(jù),從而更好發(fā)現(xiàn)被感染的居民的動(dòng)向和行動(dòng)時(shí)間。在1月初的時(shí)候,BlueDot也成功預(yù)測(cè)了新型冠狀病毒從武漢爆發(fā)后,幾天之內(nèi)從武漢擴(kuò)散至北京、曼谷、漢城及臺(tái)北。

新冠病毒爆發(fā)并非是BlueDot的第一次成功。在2016年,通過(guò)對(duì)巴西寨卡病毒的傳播路徑建立AI模型的分析,BlueDot成功地提前六個(gè)月預(yù)測(cè)在美國(guó)佛羅里達(dá)州出現(xiàn)寨卡病毒。這意味著B(niǎo)lueDot的AI監(jiān)測(cè)能力甚至可以做到預(yù)測(cè)流行病的地域蔓延軌跡。

從失敗到成功,BlueDot和谷歌GFT之間究竟存有哪些差異?

一、預(yù)測(cè)技術(shù)差異

之前主流的預(yù)測(cè)分析方法采取的是數(shù)據(jù)挖掘的一系列技術(shù),其中經(jīng)常用到的數(shù)理統(tǒng)計(jì)中的“回歸”方法,包括多元線性回歸、多項(xiàng)式回歸、多因Logistic回歸等方法,其本質(zhì)是一種曲線的擬合,就是不同模型的“條件均值”預(yù)測(cè)。這也正是GFT所采用的預(yù)測(cè)算法的技術(shù)原理。

在機(jī)器學(xué)習(xí)之前,多元回歸分析提供了一種處理多樣條件的有效方法,可以嘗試找到一個(gè)預(yù)測(cè)數(shù)據(jù)失誤最小化且“擬合優(yōu)度”最大化的結(jié)果。但回歸分析對(duì)于歷史數(shù)據(jù)的無(wú)偏差預(yù)測(cè)的渴求,并不能保證未來(lái)預(yù)測(cè)數(shù)據(jù)的準(zhǔn)確度,這就會(huì)造成所謂的“過(guò)度擬合”。

據(jù)北大國(guó)研院教授沈艷在《大數(shù)據(jù)分析的光榮與陷阱——從谷歌流感趨勢(shì)談起》一文中分析,谷歌GFT確實(shí)存在“過(guò)度擬合”的問(wèn)題。也就是在2009年GFT可以觀察到2007-2008年間的全部CDC數(shù)據(jù),采用的訓(xùn)練數(shù)據(jù)和檢驗(yàn)數(shù)據(jù)尋找最佳模型的方法所參照的標(biāo)準(zhǔn)就是——不惜代價(jià)高度擬合CDC數(shù)據(jù)。所以,在2014年的《Science》論文中指出,會(huì)出現(xiàn)GFT在預(yù)測(cè)2007-2008年流感流行率時(shí),存在丟掉一些看似古怪的搜索詞,而用另外的5000萬(wàn)搜索詞去擬合1152個(gè)數(shù)據(jù)點(diǎn)的情況。2009年之后,GFT要預(yù)測(cè)的數(shù)據(jù)就將面臨更多未知變量的存在,包括它自身的預(yù)測(cè)也參與到了這個(gè)數(shù)據(jù)反饋當(dāng)中。無(wú)論GFT如何調(diào)整,它仍然要面對(duì)過(guò)度擬合問(wèn)題,使得系統(tǒng)整體誤差無(wú)法避免。

BlueDot采取了另外一項(xiàng)策略,即醫(yī)療、衛(wèi)生專業(yè)知識(shí)和人工智能、大數(shù)據(jù)分析技術(shù)結(jié)合的方式,去跟蹤并預(yù)測(cè)流行傳染病在全球分布、蔓延的趨勢(shì),并給出最佳解決方案。

讓谷歌折戟的AI流行病預(yù)測(cè),在今天如何被創(chuàng)業(yè)公司攻占?

BlueDot主要采用自然語(yǔ)言處理和機(jī)器學(xué)習(xí)來(lái)提升該監(jiān)測(cè)引擎的效用。隨著近幾年算力的提升以及機(jī)器學(xué)習(xí),從根本上徹底改變了統(tǒng)計(jì)學(xué)預(yù)測(cè)的方法。主要是深度學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò))的應(yīng)用,采用了“反向傳播”的方法,可以從數(shù)據(jù)中不斷訓(xùn)練、反饋、學(xué)習(xí),獲取“知識(shí)”,經(jīng)過(guò)系統(tǒng)的自我學(xué)習(xí),預(yù)測(cè)模型會(huì)得到不斷優(yōu)化,預(yù)測(cè)準(zhǔn)確性也在隨著學(xué)習(xí)而改進(jìn)。而模型訓(xùn)練前的歷史數(shù)據(jù)輸入則變得尤為關(guān)鍵。足夠豐富的帶特征數(shù)據(jù)是預(yù)測(cè)模型得以訓(xùn)練的基礎(chǔ)。經(jīng)過(guò)清洗的優(yōu)質(zhì)數(shù)據(jù)和提取恰當(dāng)標(biāo)注的特征成為預(yù)測(cè)能否成功的重中之重。

二、預(yù)測(cè)模式差異

與GFT完全將預(yù)測(cè)過(guò)程交給大數(shù)據(jù)算法的結(jié)果的方式不同,BlueDot并沒(méi)有完全把預(yù)測(cè)交給AI監(jiān)測(cè)系統(tǒng)。BlueDot是在數(shù)據(jù)篩選完畢后,會(huì)交給人工分析。這也正是GFT的大數(shù)據(jù)分析的“相關(guān)性”思維與BlueDot的“專家經(jīng)驗(yàn)型”預(yù)測(cè)模式的不同。AI所分析的大數(shù)據(jù)是選取特定網(wǎng)站(醫(yī)療衛(wèi)生、健康疾病新聞?lì)?和平臺(tái)(航空機(jī)票等)的信息。而AI所給出的預(yù)警信息也需要相關(guān)流行病學(xué)家的再次分析才能進(jìn)行確認(rèn)是否正常,從而評(píng)估這些疫情信息能否第一時(shí)間向社會(huì)公布。

當(dāng)然,就目前這些案例還不能說(shuō)明BlueDot在預(yù)測(cè)流行病方面已經(jīng)完全取得成功。首先,AI訓(xùn)練模型是否也會(huì)存在一些偏見(jiàn),比如為避免漏報(bào),是否會(huì)過(guò)分夸大流行病的嚴(yán)重程度,因而再次出現(xiàn)“狼來(lái)了”的問(wèn)題?其次,監(jiān)測(cè)模型所評(píng)估的數(shù)據(jù)是否有效,比如BlueDot謹(jǐn)慎使用社交媒體的數(shù)據(jù)來(lái)避免過(guò)多的“噪音”?

讓谷歌折戟的AI流行病預(yù)測(cè),在今天如何被創(chuàng)業(yè)公司攻占?

幸而B(niǎo)lueDot作為一家專業(yè)的健康服務(wù)平臺(tái),他們會(huì)比GFT更關(guān)注監(jiān)測(cè)結(jié)果的準(zhǔn)確性。畢竟,專業(yè)的流行病專家是這些預(yù)測(cè)報(bào)告的最終發(fā)布人,其預(yù)測(cè)的準(zhǔn)確度直接會(huì)影響其平臺(tái)信譽(yù)和商業(yè)價(jià)值。這也意味著,BlueDot還需要面臨如何平衡商業(yè)化盈利與公共責(zé)任、信息開(kāi)放等方面的一些考驗(yàn)。

AI預(yù)測(cè)流行病爆發(fā),僅僅是序曲……

“發(fā)出第一條武漢冠狀病毒警告的是人工智能?”媒體的這一標(biāo)題確實(shí)讓很多人驚訝。在全球一體化的當(dāng)下,任何一地流行疾病的爆發(fā)都有可能短時(shí)間內(nèi)傳遍全球任何一個(gè)角落,發(fā)現(xiàn)時(shí)間和預(yù)警通報(bào)效率就成為預(yù)防流行疾病的關(guān)鍵。如果AI能夠成為更好的流行病預(yù)警機(jī)制,那不失為世界衛(wèi)生組織(WHO)以及各國(guó)的衛(wèi)生健康部門進(jìn)行流行病預(yù)防機(jī)制的一個(gè)辦法。

那這又要涉及到這些機(jī)構(gòu)組織如何采信AI提供的流行病預(yù)報(bào)結(jié)果的問(wèn)題。未來(lái),流行病AI預(yù)測(cè)平臺(tái)還必須提供流行病傳染風(fēng)險(xiǎn)等級(jí),以及疾病傳播可能造成的經(jīng)濟(jì)、政治風(fēng)險(xiǎn)的等級(jí)的評(píng)估,來(lái)幫助相關(guān)部門做出更穩(wěn)妥的決策。而這一切,仍然需要時(shí)間。這些組織機(jī)構(gòu)在建立快速反應(yīng)的流行病預(yù)防機(jī)制中,也應(yīng)當(dāng)把這一AI監(jiān)測(cè)系統(tǒng)提上日程了。

可以說(shuō),此次AI對(duì)流行病爆發(fā)提前成功地預(yù)測(cè),是人類應(yīng)對(duì)這場(chǎng)全球疫情危機(jī)的一抹亮色。希望這場(chǎng)人工智能參與的疫情防控的戰(zhàn)役只是這場(chǎng)持久戰(zhàn)的序曲,未來(lái)應(yīng)該有更多可能。比如,主要傳染病病原體的AI識(shí)別應(yīng)用;基于主要傳染病疫區(qū)和傳染病的季節(jié)性流行數(shù)據(jù)建立傳染病AI預(yù)警機(jī)制;AI協(xié)助傳染病爆發(fā)后的醫(yī)療物資的優(yōu)化調(diào)配等。這些讓我們拭目以待。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI