溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)

發(fā)布時間:2020-08-09 20:16:17 來源:ITPUB博客 閱讀:425 作者:數(shù)據(jù)和云 欄目:數(shù)據(jù)庫

摘要:如今,各種數(shù)據(jù)庫的創(chuàng)新技術(shù)都在“無人區(qū)”進(jìn)行試驗,這些技術(shù)能否在企業(yè)中扎根生長并且長久存在,對于很多企業(yè)而言都是一個重大挑戰(zhàn)。在2019數(shù)據(jù)技術(shù)嘉年華大會上, 阿里巴巴集團(tuán)副總裁、高級研究員、阿里云智能數(shù)據(jù)庫事業(yè)部總負(fù)責(zé)人 李飛飛 先生與大家分享了下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)。

以下內(nèi)容根據(jù)李飛飛先生演講視頻以及PPT整理而成。

關(guān)注公眾號“數(shù)據(jù)和云”,回復(fù): 2019dtc  ,更多精彩ppt等你下載?。≒PT還在不斷更新當(dāng)中,請持續(xù)關(guān)注)

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)

2019數(shù)據(jù)技術(shù)嘉年華 李飛飛先生現(xiàn)場演講

數(shù)據(jù)庫:云上應(yīng)用關(guān)鍵一環(huán)

如今,上云已經(jīng)成為一種趨勢。而在上云的過程中,數(shù)據(jù)庫則被認(rèn)為是云上非常重要的一環(huán)。因為云最開始提供的是IaaS,而隨著各種智能化應(yīng)用的興起,數(shù)據(jù)庫就成為了從IaaS到智能化應(yīng)用連接的重要一環(huán)。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)


阿里云數(shù)據(jù)庫 中國云數(shù)據(jù)庫領(lǐng)導(dǎo)者

目前,阿里云是中國以及整個亞太地區(qū)排名第一的云數(shù)據(jù)庫服務(wù)商,全球范圍阿里云排名第三。阿里云核心產(chǎn)品涵蓋了上述的幾種形態(tài),OLTP數(shù)據(jù)庫包括POLARDB,下一代實時分析的數(shù)據(jù)倉庫OLAP——AnalyticDB。與此同時,阿里巴巴還有達(dá)摩院數(shù)據(jù)庫實驗室,這個實驗室主要負(fù)責(zé)進(jìn)行一些數(shù)據(jù)庫領(lǐng)域的前沿探索,比如全鏈路加密數(shù)據(jù)庫以及智能化數(shù)據(jù)庫的探索。阿里云提供了豐富的云數(shù)據(jù)庫產(chǎn)品,從公有云到專有云,再到今年剛推出的數(shù)據(jù)庫一體機(jī),對于各種形態(tài)的數(shù)據(jù)庫產(chǎn)品和系統(tǒng)都能夠提供強(qiáng)大的支撐。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)

那么,面向未來的企業(yè)級數(shù)據(jù)庫的技術(shù)和產(chǎn)品到底應(yīng)該長什么樣呢?我們一起來看看。

數(shù)據(jù)庫系統(tǒng)演進(jìn)

數(shù)據(jù)庫系統(tǒng)的演進(jìn)經(jīng)歷了從最早的關(guān)系型數(shù)據(jù)庫OLTP到半結(jié)構(gòu)化,再到分析型數(shù)據(jù)庫OLAP等非結(jié)構(gòu)化的數(shù)據(jù)庫,再發(fā)展到如今的多模數(shù)據(jù)庫。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)

Mutil-Model多模數(shù)據(jù)庫系統(tǒng)

如今,數(shù)據(jù)庫技術(shù)面臨著很多挑戰(zhàn),其中之一就是Mutil-Model多模數(shù)據(jù)庫系統(tǒng),這一部分在業(yè)界已經(jīng)有很多類似產(chǎn)品。對于多模而言,可以分為南向、北向,南向多模代表存儲多種多樣,而希望用統(tǒng)一的查詢語言來查詢來自于不同數(shù)據(jù)源的數(shù)據(jù),其實也就是數(shù)據(jù)湖的概念。另外一種則是北向多模,數(shù)據(jù)存儲一般只有一種模式,比如KV,但是卻希望提供多種查詢接口,比如像圖、文檔。以上提到的北向多模和南向多模就是多模兩種不同形態(tài)。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)

數(shù)據(jù)庫智能化+自動化管控平臺

數(shù)據(jù)庫技術(shù)發(fā)展到今天,可以將其想象成一個汽車,它具有非常多的參數(shù),它在運(yùn)行過程中會跑到不同道路上,并且周圍還有很多別的不同汽車。相互之間如何協(xié)調(diào),引擎的優(yōu)勢如何體現(xiàn)出來,其實就和自動駕駛汽車非常像,因此稱之為“Self-Driving Database Platform”。在這之上,阿里希望做到自感知、自決策、自恢復(fù)和自優(yōu)化,這也是下一代智能化數(shù)據(jù)庫的基本定義。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)

新硬件: 軟硬件一體化設(shè)計

未來,下一代的企業(yè)級數(shù)據(jù)庫一定要結(jié)合軟硬件一體化的設(shè)計理念,而不能把軟件和硬件隔開。只有將軟硬件結(jié)合在一起,才能把系統(tǒng)的優(yōu)勢發(fā)揮出來。而一定要將軟硬件結(jié)合在一起,才能更好地將數(shù)據(jù)庫系統(tǒng)的優(yōu)勢發(fā)揮出來。比如NVM對傳統(tǒng)數(shù)據(jù)庫的保護(hù)機(jī)制會帶來很大的沖擊和改變,并且也會對內(nèi)存的使用和管理造成很大的改變。而RDMA則是另外的一個例子,其使得數(shù)據(jù)庫訪問遠(yuǎn)程節(jié)點(diǎn)數(shù)據(jù)的速度非??欤@就成為了存儲與計算分離技術(shù)的基礎(chǔ)。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)

云原生架構(gòu): 彈性x高可用x企業(yè)實踐x開放生態(tài)

今天來看,業(yè)界有各種各樣的數(shù)據(jù)庫,可以大致分為三類,第一類是最左側(cè)的單節(jié)點(diǎn)數(shù)據(jù)庫,這里的DB框代表CPU+內(nèi)存,可以認(rèn)為是計算節(jié)點(diǎn),對于單節(jié)點(diǎn)數(shù)據(jù)庫而言,計算節(jié)點(diǎn)和存儲節(jié)點(diǎn)是緊耦合在一起的。傳統(tǒng)的單節(jié)點(diǎn)MySQL、PG以及商業(yè)數(shù)據(jù)庫Oracle、SQL Server等都是基于這樣的架構(gòu)。單節(jié)點(diǎn)架構(gòu)的優(yōu)點(diǎn)在于開發(fā)簡單、部署容易,缺點(diǎn)是擴(kuò)展性和高可用都不好。而最右邊的分布式架構(gòu),將數(shù)據(jù)進(jìn)行分片并分別存在不同節(jié)點(diǎn)上面,它在底下掛了很多個單節(jié)點(diǎn)架構(gòu)。分布式架構(gòu)的特點(diǎn)是水平擴(kuò)展能力特別強(qiáng),當(dāng)數(shù)據(jù)量變大、并發(fā)量變高的時候只需要增加節(jié)點(diǎn)即可。其劣勢是如果要求不改動上層業(yè)務(wù)邏輯,就必須要有能力去處理分布式事務(wù)和分布式查詢。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)

云原生架構(gòu)的邏輯:云上的資源是“取之不盡,用之不竭”的,只要愿意付費(fèi),只要客戶有需求,理論上可以無限擴(kuò)容。而云上最大的需求就是要有非常好的彈性,當(dāng)需要資源的時候,可以取之不盡,用之不竭;當(dāng)不需要的時候,則可以把它全部釋放掉。這里的彈性就如同大家家里的自來水管一樣,需要用的時候把水龍頭打開,不需要的時候就關(guān)掉。而傳統(tǒng)線下的數(shù)據(jù)庫使用方式更像是一個蓄水池,里面分配的服務(wù)器等資源是固定的,當(dāng)將水位估計好之后,就只需要蓄足夠多水就好了。但是在云上,則希望為用戶提供彈性的使用方式,通過存儲和計算分離,把分布式存儲節(jié)點(diǎn)通過網(wǎng)絡(luò)連起來,使得訪問遠(yuǎn)程節(jié)點(diǎn)就跟訪問本地節(jié)點(diǎn)一樣快,使得用戶無感知。

下一代的企業(yè)級數(shù)據(jù)庫:云原生+分布式

下一代的企業(yè)級數(shù)據(jù)庫架構(gòu)應(yīng)該是將云原生架構(gòu)和分布式架構(gòu)結(jié)合起來的。底下的每個Shard都是云原生數(shù)據(jù)庫,存儲與計算分離,因此每個Shard的彈性都非常好,能力處理的并發(fā)量也都非常大。因此,對于同樣的需求而言,所需要的Shard數(shù)量就會大大減少。阿里云的POLARDB分布式版數(shù)據(jù)庫就將云原生能力和分布式能力完美地結(jié)合起來。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)

阿里云數(shù)據(jù)庫技術(shù)與產(chǎn)品是完整的生態(tài)體系

阿里云數(shù)據(jù)庫不僅在云上提供服務(wù),還會支撐整個阿里巴巴集團(tuán)內(nèi)部經(jīng)濟(jì)體的所有活動。2018年雙11,在零點(diǎn)剛過的第一秒,阿里的數(shù)據(jù)庫系統(tǒng)峰值增長了大概122倍,瞬間爆發(fā),這就需要數(shù)據(jù)庫具有較高的可擴(kuò)展性、彈性以及高可用。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)


開放生態(tài),支持開源社區(qū)

阿里巴巴在開源社區(qū)也做了大量工作,比如在MySQL社區(qū)中所做的工作也得到了社區(qū)高度認(rèn)可,也拿到了社區(qū)的各種獎項。此外,在PostgreSQL上也做了大量工作,比如替代傳統(tǒng)的統(tǒng)計查詢方式進(jìn)行優(yōu)化,能夠支持OLTP和OLAP一起完成混合負(fù)載任務(wù)。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)


云原生數(shù)據(jù)庫:POLARDB

接下來重點(diǎn)分享阿里巴巴自研數(shù)據(jù)庫核心技術(shù)的理念和突破,也就是如何把前面提到的云原生和分布式架構(gòu)有機(jī)、完美地結(jié)合起來。首先分享阿里自研POLARDB數(shù)據(jù)庫,其架構(gòu)的上層有很多個計算節(jié)點(diǎn),計算節(jié)點(diǎn)下面有一個分布式共享存儲,通過RDMA網(wǎng)絡(luò)連接。目前,公有云上線的POLARDB版本能夠做到16個計算節(jié)點(diǎn),在POLARDB 1.0版本中做到了一寫多讀,目前不僅是國內(nèi),包括東南亞等國家都有很多案例,而且客戶通過大量的測試和嘗試發(fā)現(xiàn),阿里云POLARDB的性能和穩(wěn)定性都非常優(yōu)秀,這就能夠看出來阿里云數(shù)據(jù)庫是非??孔V的。對于數(shù)據(jù)庫,尤其是OLTP系統(tǒng)而言,客戶往往將自己的身家性命壓在這里了。所以,POLARDB的架構(gòu)非常具有競爭力。目前,1個POLARDB實例可以做到100TB的存儲容量,單節(jié)點(diǎn)可以做到100萬QPS。

  阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)

POLARDB架構(gòu)細(xì)節(jié)

具體而言,在共享存儲里面實現(xiàn)高可用,把數(shù)據(jù)分塊形成Data Chunk,每個數(shù)據(jù)分塊會備份三份,通過Parallel Raft協(xié)議在分布式共享存儲里實現(xiàn)高可用,使得用戶無需擔(dān)心數(shù)據(jù)丟失的問題。此外,在POLARDB 2.0版本將會實現(xiàn)多寫多讀以及跨區(qū)的高可用。POLARDB前面有一個Smart Proxy,這個Smart Proxy負(fù)責(zé)負(fù)載均衡以及讀寫分發(fā)等工作。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)


POLARDB并行查詢:27倍性能提升

除了在架構(gòu)方面的優(yōu)化,POLARDB在數(shù)據(jù)庫內(nèi)核中也做了大量優(yōu)化。其中一個是并行查詢。眾所周知,傳統(tǒng)數(shù)據(jù)庫如Oracle、MySQL等都是單線程查詢。而今天幾乎所有的CPU都是多核的,想要充分發(fā)揮這些硬件的能力,就需要數(shù)據(jù)庫的引擎具有很好的并行查詢能力。因此,阿里云數(shù)據(jù)庫團(tuán)隊圍繞著這一點(diǎn)做了大量工作,對于數(shù)據(jù)庫的SQL解析器、優(yōu)化器以及執(zhí)行引擎全部進(jìn)行了重寫,可以支持多線程并行執(zhí)行。對于數(shù)據(jù)庫中較為典型的Group By等查詢的速度提升非常有利,平均能夠達(dá)到27倍的性能提升。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)


把云數(shù)據(jù)庫帶回家:POLARDB Box,高性能一體機(jī)

今年9月底,POLARDB Box高性能一體機(jī)正式發(fā)布。在10月已經(jīng)有10個落地的實際案例,其中兩個已經(jīng)正式簽約。POLARDB Box高性能一體機(jī)具有以下特點(diǎn):高度兼容Oracle,雖然沒有辦法說100%兼容Oracle,但是能夠稱之為高度兼容,阿里云自己也做了超過1000多個Oracle兼容項的優(yōu)化。一個盒子里面能夠支持1000多個Vitual CPU,9TB內(nèi)存以及120TB閃存。POLARDB Box高性能一體機(jī)也具備并行查詢優(yōu)化的能力,同時,也具備非常強(qiáng)大的時空數(shù)據(jù)查詢引擎。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)

此外,通過阿里云數(shù)據(jù)庫遷移工具ADAM和DTS以及AnalyticDB形成的一整套生態(tài),能夠讓客戶非常簡單地把云數(shù)據(jù)庫帶回家。POLARDB Box高性能一體機(jī)和傳統(tǒng)一體機(jī)有什么不同?最核心的部分是POLARDB Box高性能一體機(jī)里面的管控平臺就是阿里云公共云的管控平臺,也就是說POLARDB Box高性能一體機(jī)的管控是和公共云打通的,如果用戶還未想好是否上云,那么可在IDC里面先使用一體機(jī)方式享受云數(shù)據(jù)庫的性能,后續(xù)上云就變成無縫的過程,甚至可以采用混合云方式,一部分?jǐn)?shù)據(jù)上云,一部分?jǐn)?shù)據(jù)不上云,因為云上和云下的管控是打通的,對于用戶而言是無縫管理的體驗。

POLARDB-X:分布式版本支持水平擴(kuò)展

POLARDB-X分布式版能夠完美地結(jié)合分布式與云原生的能力。比如在阿里巴巴集團(tuán)的雙11場景下一定要做分庫分表,此時僅有計算分離、彈性這些還是不夠的,一定要做分庫分表,否則是無法支撐瞬間122倍流量峰值的。阿里云POLARDB-X在分庫分表的基礎(chǔ)之上加上了云原生的能力,這樣就可以減少跨庫查詢概率。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)

智能化OLAP:AnalyticDB實時交互式數(shù)據(jù)倉庫

除了POLARDB,阿里云在智能化OLAP方面還擁有實時交互智能數(shù)據(jù)倉庫——AnalyticDB,能夠支撐海量數(shù)據(jù)處理分析、向量分析等。

在數(shù)據(jù)分析領(lǐng)域存在大量的非結(jié)構(gòu)化數(shù)據(jù),而如今每天產(chǎn)生的80%數(shù)據(jù)都是非結(jié)構(gòu)數(shù)據(jù),比如照片、視頻等。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)

那么,如何把非結(jié)構(gòu)化數(shù)據(jù)在一套系統(tǒng)里面無縫地進(jìn)行交互式分析呢?阿里云數(shù)據(jù)庫團(tuán)隊就做了向量處理引擎,首先將非結(jié)構(gòu)化數(shù)據(jù)實現(xiàn)向量化,在高維向量空間中進(jìn)行處理。AnalyticDB中就實現(xiàn)了向量處理引擎,這樣就可以在向量空間中把結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)實現(xiàn)融合處理。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)

AI for DB-DAS:智能化數(shù)據(jù)庫管控與內(nèi)核

除了架構(gòu)上、技術(shù)上的突破,除了云原生和分布式之外,下一代企業(yè)級數(shù)據(jù)庫的另外兩個核心關(guān)鍵詞應(yīng)該是智能化和安全。所謂智能化就是智能化管控云內(nèi)核,這一部分在阿里巴巴內(nèi)部已經(jīng)落地了,阿里巴巴全網(wǎng)的幾十萬個數(shù)據(jù)庫實例上面都會有Agent,去采取實時的運(yùn)行狀態(tài),進(jìn)行實時監(jiān)控和預(yù)警。其中一部分工作是自動調(diào)整數(shù)據(jù)庫Buffer的大小,這對于數(shù)據(jù)庫的性能和成本具有非常大的影響。阿里云數(shù)據(jù)庫能夠?qū)崿F(xiàn)在保證全網(wǎng)性能不發(fā)生較大變化的情況下,通過自動調(diào)整數(shù)據(jù)庫Buffer的大小,平均每天可以節(jié)省內(nèi)存使用成本達(dá)15%以上。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)


云上數(shù)據(jù)安全

此外,云上數(shù)據(jù)安全也非常重要。傳統(tǒng)數(shù)據(jù)庫安全方法只是保證數(shù)據(jù)在傳輸過程中的安全以及加密,但數(shù)據(jù)真正進(jìn)入數(shù)據(jù)庫內(nèi)核進(jìn)行處理的時候還是要進(jìn)行解密的,這時就會有數(shù)據(jù)泄露的風(fēng)險。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)

針對這樣的問題,阿里云數(shù)據(jù)庫團(tuán)隊就實現(xiàn)了全鏈路加密數(shù)據(jù)庫。全鏈路加密數(shù)據(jù)庫使得數(shù)據(jù)進(jìn)入數(shù)據(jù)庫內(nèi)核之后,依然不需要解密,而且數(shù)據(jù)庫加密的密鑰是客戶提供的,不需要提供給云廠商。全程來講,云廠商即使作為Root管理員也沒有辦法看到用戶的數(shù)據(jù)。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)

數(shù)據(jù)傳輸云服務(wù)DTS

數(shù)據(jù)上云的第一步一定是尋找到一個非常好的上云高速公路。阿里云數(shù)據(jù)庫團(tuán)隊實現(xiàn)了數(shù)據(jù)傳輸服務(wù)DTS,其能夠?qū)⒉煌炊藬?shù)據(jù)庫遷移到目標(biāo)數(shù)據(jù)庫,這里涉及的核心技術(shù)挑戰(zhàn)就是如何在復(fù)雜的網(wǎng)絡(luò)以及部署環(huán)境下實現(xiàn)不同源端和目標(biāo)端的用戶數(shù)據(jù)遷移。數(shù)據(jù)傳輸服務(wù)DTS就是阿里云數(shù)據(jù)庫所實現(xiàn)的比較有影響的產(chǎn)品。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)

擁抱開放生態(tài),攜手客戶與開發(fā)者共成長

下圖展示的是整個阿里云數(shù)據(jù)庫的布局情況。阿里云希望擁抱開放生態(tài),攜手客戶與開發(fā)者一同成長。阿里云希望能基于自身的兩個核心的數(shù)據(jù)庫自研產(chǎn)品POLARDB和AnalyticDB以及上述提到的數(shù)據(jù)傳輸工具DTS等共同打造具有中國特色的數(shù)據(jù)庫生態(tài)。所有的數(shù)據(jù)庫系統(tǒng)不一定要開源,但一定要擁抱一個開放的標(biāo)準(zhǔn)生態(tài),以此來避免從一個封閉系統(tǒng)走向另外一個封閉系統(tǒng)。

阿里數(shù)據(jù)庫掌門人李飛飛:下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)

小編提醒:關(guān)于《2019數(shù)據(jù)技術(shù)嘉年華PPT》共有兩個獲取途徑:

1. 在“數(shù)據(jù)和云”公眾號后臺回復(fù):2019dtc,即可下載!

2.在“墨天輪”上,已按13個會場整理了目前所有已經(jīng)開放的PPT,大家可以選擇感興趣的主題下載,詳情:https://www.modb.pro/db/11553,復(fù)制到網(wǎng)頁中打開。

PPT還在不斷更新完善,請持續(xù)關(guān)注!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI