您好,登錄后才能下訂單哦!
開源 SQLFlow,反哺業(yè)界,同時(shí)小小秀出 AI 肌肉。
這就是螞蟻金服近日開源首個(gè)將 SQL 應(yīng)用于 AI 引擎項(xiàng)目 SQLFlow 后,業(yè)界給出的反應(yīng)。
SQLFlow,把艱深的 AI 與簡單的 SQL 結(jié)合起來,大大簡化了數(shù)據(jù)工程師使用 AI 技術(shù)的門檻。
而研發(fā)出 SQLFlow 的,正是螞蟻金服計(jì)算存儲(chǔ)首席架構(gòu)師 何昌華 帶領(lǐng)下的 AI Infra 團(tuán)隊(duì)。
何昌華斯坦福博士畢業(yè),先在 Google 總部工作 7 年,贏得過公司最高技術(shù)獎(jiǎng)項(xiàng),其后又在獨(dú)角獸 Airbnb 工作 2 年,負(fù)責(zé)后臺(tái)系統(tǒng)的應(yīng)用架構(gòu)。
2017 年 5 月,他正式加盟螞蟻金服,擔(dān)任計(jì)算存儲(chǔ)首席架構(gòu)師,并在 2018 年入選了第 14 批國家“千人計(jì)劃”專家。
在螞蟻金服,何昌華的工作是開發(fā)新一代計(jì)算引擎,搭建金融型數(shù)據(jù)智能平臺(tái)。
而 SQLFlow,就是計(jì)算引擎主線上的結(jié)晶之一。
不過對何昌華來說,世界正在巨變,他還要帶隊(duì)探索一些沒人做成的事情。
比如 全實(shí)時(shí)的大數(shù)據(jù)智能系統(tǒng) 。
大數(shù)據(jù)的概念,最早來自于搜索引擎行業(yè),因?yàn)樗阉饕婷鎸Φ氖侨祟愒诨ヂ?lián)網(wǎng)上留下的爆炸性增長的龐大數(shù)據(jù)。
2010 年底,谷歌宣布新一代搜索引擎“Google Caffeine”正式上線,這項(xiàng)技術(shù)的革命性在于,任何時(shí)刻,世界上的任何網(wǎng)頁發(fā)生了變化,都可以實(shí)時(shí)地添加到索引中,用戶也可以實(shí)時(shí)地搜索到,解決了傳統(tǒng)搜索引擎的延時(shí)問題。
何昌華當(dāng)時(shí)正是Google Caffeine開發(fā)團(tuán)隊(duì)的核心技術(shù)負(fù)責(zé)人之一。
他解釋,“Google Caffeine所實(shí)現(xiàn)的最核心的功能,就是實(shí)時(shí)?!?
而現(xiàn)在何昌華在螞蟻金服工作的目標(biāo),同樣是搭建一個(gè)“完全實(shí)時(shí)”的大數(shù)據(jù)處理系統(tǒng),或稱之為大數(shù)據(jù)智能平臺(tái)。由于線下生活場景的多樣性和復(fù)雜性,這是個(gè)比構(gòu)建實(shí)時(shí)搜索更有挑戰(zhàn)性的任務(wù)。
他認(rèn)為,這將成為未來技術(shù)的基石。
對于計(jì)算機(jī)來說,實(shí)時(shí)就是在發(fā)出請求到返回響應(yīng)之間的延遲盡量小,對于大數(shù)據(jù)處理系統(tǒng)來說,這還意味著從數(shù)據(jù)生產(chǎn)到消費(fèi)的延遲盡可能低,所有這些都意味著計(jì)算速度和能力的提升。
此前常用的大數(shù)據(jù)計(jì)算模型 MapReduce,對數(shù)據(jù)的處理是“分片式”的,數(shù)據(jù)的片與片之間有邊界的概念,這種批處理的模式不可避免地會(huì)帶來延時(shí)問題。
以搜索的場景為例,假如以天為時(shí)間單位對數(shù)據(jù)進(jìn)行批處理,那就意味著今天更新的網(wǎng)頁,用戶明天才能搜索到,調(diào)高處理的頻率可以部分解決問題,一天兩次、一天四次、兩小時(shí)一次……
雖然能逐步接近“準(zhǔn)實(shí)時(shí)”,但成本也會(huì)急劇上升。
要實(shí)現(xiàn)真正的實(shí)時(shí),就必須打破這種批處理的邊界,讓數(shù)據(jù)處理的過程像水流一樣,隨來隨算,隨時(shí)反饋。
這也催生了后來流式計(jì)算引擎的蓬勃發(fā)展。
而在何昌華看來,除了快,“實(shí)時(shí)系統(tǒng)”還有兩層重要含義。
第一是 OLTP(聯(lián)機(jī)事務(wù)處理)和 OLAP(聯(lián)機(jī)分析處理)的融合。
在以往的觀念里,OLTP 對實(shí)時(shí)性的要求高,OLAP 對時(shí)效性的要求不那么高。
舉例而言,用支付寶進(jìn)行一筆交易,需要即時(shí)查詢和增刪記錄,就是由 OLTP 來處理的。而對用戶行為特征的數(shù)據(jù)分析,則由 OLAP 來處理。
但現(xiàn)在隨著業(yè)務(wù)場景需求的不斷變化,OLAP 的時(shí)效性要求也越來越高。
例如互聯(lián)網(wǎng)金融中的風(fēng)控場景,就需要在完成一筆交易的極短時(shí)間中,通過分析用戶的特征數(shù)據(jù)判斷風(fēng)險(xiǎn),這要求 OLAP 也要能實(shí)時(shí)反饋,且反饋結(jié)果馬上就能夠在線訪問。
第二是智能和數(shù)據(jù)系統(tǒng)的融合。
人工智能和機(jī)器學(xué)習(xí)是大數(shù)據(jù)應(yīng)用最熱門的領(lǐng)域,而現(xiàn)在絕大多數(shù)公司的做法,是將數(shù)倉和機(jī)器學(xué)習(xí)平臺(tái)分開,從數(shù)倉取一批數(shù)據(jù),放到機(jī)器學(xué)習(xí)平臺(tái)上去訓(xùn)練模型。
隨著業(yè)務(wù)場景的復(fù)雜化和多樣化,這種模式逐漸顯露問題,因?yàn)槟P湍芊駥?shí)時(shí)更新,能否能用更實(shí)時(shí)的數(shù)據(jù)來訓(xùn)練模型,直接影響了應(yīng)對復(fù)雜場景的能力。
“數(shù)據(jù)實(shí)時(shí)流入、實(shí)時(shí)訓(xùn)練模型,模型實(shí)時(shí)上線決策并反饋數(shù)據(jù)——這一條線如果能完全打通,對于業(yè)務(wù)將產(chǎn)生不可估量的價(jià)值”, 何昌華說。
數(shù)據(jù)、計(jì)算、智能,所有這一切構(gòu)成了何昌華設(shè)想中的“高效率的大數(shù)據(jù)底盤”,也就是一個(gè)融合的實(shí)時(shí)數(shù)據(jù)智能平臺(tái),或者叫“Big Data Base”,就像曾經(jīng)數(shù)據(jù)庫成為無數(shù)場景的數(shù)據(jù)底盤一樣。
如今,不僅是螞蟻金服或者阿里巴巴集團(tuán),在各行各業(yè)中,數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)都越來越多。
但大數(shù)據(jù)開發(fā)的門檻很高,如果每一項(xiàng)業(yè)務(wù)都從數(shù)據(jù)開發(fā)的底層做起,將會(huì)非常耗時(shí)耗力。
如何才能讓做業(yè)務(wù)的人有更多精力專注于業(yè)務(wù)?
何昌華認(rèn)為這就是“Big Data Base”的使命,同樣也是“基石”的含義:
我們希望讓這件事變得簡單——各行各業(yè)的從業(yè)人員、各條業(yè)務(wù)線的同學(xué),在堅(jiān)實(shí)的平臺(tái)基礎(chǔ)上,不需要知道下層的細(xì)節(jié),就可以很方便地開發(fā)上層應(yīng)用。
降低數(shù)據(jù)和智能的門檻,這是何昌華對于新引擎和數(shù)據(jù)智能平臺(tái)的期望。
目前,他帶領(lǐng)團(tuán)隊(duì)開發(fā)的金融型多模融合計(jì)算引擎,已經(jīng)實(shí)現(xiàn)了流計(jì)算與圖計(jì)算、流計(jì)算與機(jī)器學(xué)習(xí)的融合打通,距離他設(shè)想中的“大融合”越來越近了。
何昌華透露團(tuán)隊(duì)目標(biāo),就是讓業(yè)務(wù)變得“極簡”:
未來兩到三年,我們希望新引擎能夠承擔(dān)實(shí)時(shí)在線的融合計(jì)算任務(wù)。基于這個(gè)引擎,結(jié)合其他開源引擎,我們就能夠構(gòu)建出一整套數(shù)據(jù)智能系統(tǒng)。在這個(gè)數(shù)據(jù)智能系統(tǒng)上,業(yè)務(wù)可以非常輕松地完成從功能開發(fā)到產(chǎn)品上線的流程,后續(xù)的吸引流量、分析決策等也都可以借助這個(gè)平臺(tái)來完成。
他甚至勾畫了一幅很科幻的未來場景:你寫一個(gè)功能交給引擎,引擎會(huì)決定調(diào)用多少資源去計(jì)算,你無需關(guān)心具體的計(jì)算過程,結(jié)果將會(huì)在最短的時(shí)間內(nèi)反饋給你。
當(dāng)你構(gòu)想出一種新型業(yè)務(wù),數(shù)據(jù)智能平臺(tái)會(huì)判斷需要哪些數(shù)據(jù),采用哪種模型,如何上線,如何運(yùn)營流量。
這些流程,都可以智能化地自動(dòng)完成。
這是個(gè)更長遠(yuǎn)的目標(biāo)。我們開發(fā)出數(shù)據(jù)處理的能力,未來,任何人都可以使用這種能力,真正實(shí)現(xiàn)“數(shù)據(jù)民主化”。
這樣一個(gè)融合多種能力的實(shí)時(shí)數(shù)據(jù)智能平臺(tái),目前在世界上還沒有哪家公司能完全研發(fā)出來。
何昌華也謹(jǐn)慎而滿懷信心地展望著未來:“我們也是在探索,如果完全實(shí)現(xiàn)了探索目標(biāo),我們就將真正站到全世界領(lǐng)先的位置?!?
世界瞬息萬變,數(shù)據(jù)作為物理世界的鏡像,理論上是無窮無盡的,問題只在于人類有沒有辦法去記錄和采集它們。
互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的普及,讓人類的行為數(shù)據(jù)采集成本大大降低。
IoT 傳感器設(shè)備的普及,讓工業(yè)生產(chǎn)和社會(huì)生活中的數(shù)據(jù)也能夠大量地沉淀下來。
因此在過去的二十年中,數(shù)據(jù)總量出現(xiàn)了爆炸性的增長。
在整個(gè)世界發(fā)生數(shù)字化巨變的同時(shí),我們的生活也在悄然改變。
基于數(shù)據(jù)應(yīng)用的發(fā)展,我們享受到了一二十年之前無法想象的便捷——電商、O2O、移動(dòng)支付、智能家居……
但在何昌華看來,數(shù)字化還處在非常初級(jí)的、在把線下的數(shù)據(jù)搬到線上的階段。
真正需要思考的問題,是未來當(dāng)高度數(shù)據(jù)化的社會(huì)到來時(shí),我們擁有什么樣的能力去處理和應(yīng)用海量的數(shù)據(jù)。
這關(guān)系到我們是否能夠基于數(shù)據(jù)做到更多的事,催生出更高的智能,進(jìn)而推動(dòng)人類社會(huì)向著下一階段發(fā)展。
這就是他回國加入螞蟻金服所要尋找的答案。
之所以回來,是因?yàn)橛X得在這里做的事,往大一點(diǎn)說,是面向人類社會(huì)發(fā)展下一階段的探索。
在這場全新的探索中,和海量的數(shù)據(jù)打交道是必修課,因此,他反復(fù)強(qiáng)調(diào)著計(jì)算能力的重要性:大數(shù)據(jù)、人工智能、深度學(xué)習(xí)……無不需要強(qiáng)大的計(jì)算能力,否則,向前的探索寸步難行。
人工智能的發(fā)展趨勢,也是用更大更高更海量的計(jì)算,來模擬人的能力。
“真正的人工智能=數(shù)據(jù) + 100 倍的計(jì)算”,谷歌最新的人工智能模型水平,換算出來相當(dāng)于數(shù)百塊 GPU 持續(xù)計(jì)算一整年。
何昌華和團(tuán)隊(duì)一起傾力開發(fā)的新一代計(jì)算引擎和數(shù)據(jù)智能平臺(tái),實(shí)際上是高效計(jì)算能力和強(qiáng)大數(shù)據(jù)處理能力的綜合載體。
它自螞蟻金服海量的業(yè)務(wù)場景和數(shù)據(jù)之中誕生,初衷是支撐螞蟻金服的各項(xiàng)業(yè)務(wù),但隨著技術(shù)逐步成熟,它也可以具備多場景下的通用性。
金融屬性帶來的高可用性和高安全性,讓它可以廣泛用于其他行業(yè),應(yīng)對生活服務(wù)場景更加不在話下。
這項(xiàng)工作的意義,往大了說,是在推動(dòng)社會(huì)的變革,雖然聽上去是個(gè)宏大的命題,但它并非那么高高在上。
“每一項(xiàng)技術(shù)都必有它的落腳點(diǎn)。具體到螞蟻金服,這些技術(shù)跟數(shù)億人的日常生活緊密相連?!?
每一天,當(dāng)何昌華自己掏出手機(jī)使用支付寶結(jié)賬付款時(shí),都能直觀地感受到自己的工作成果。就像他在谷歌工作時(shí),每天也都會(huì)使用搜索功能一樣:“自己做出的成果,自己每天都在使用,非常切實(shí)地感覺到技術(shù)對生活的改變?!?
他這樣陳述自己的人生理想。在通往理想的征程中,他既站在技術(shù)的最前沿,也身處最為日常的場景中,這二者本就密不可分:
用技術(shù)改善人的生活,推動(dòng)社會(huì)和人不斷往前進(jìn)化。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。