溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

2015 年,我和華大基因立下一個小目標……

發(fā)布時間:2020-08-07 02:02:37 來源:ITPUB博客 閱讀:129 作者:阿里巴巴云原生 欄目:云計算

導讀:2015 年,阿里云和華大基因立下一個目標:到 2020 年,要在 24 小時完成個人全基因組測序。這在當時是一個幾乎被認為不可能的挑戰(zhàn)。 而在 2020 年剛開始的第 17 天,我們就實現(xiàn)了這個目標!并且把個人全基因組測序分析做到只需要 15 分鐘,不到一頓飯的功夫。

云端實現(xiàn)大規(guī)模彈性調(diào)度計算

2015 年,我和華大基因立下一個小目標……

圖 1 - WGS 分析過程示意圖

基因計算所面臨的挑戰(zhàn)不同于常規(guī)計算,大數(shù)據(jù)生信分析平臺需要具備 PB 級的數(shù)據(jù)處理能力:存儲與壓縮、清理及管理、低成本保存的能力;快速、安全的云端分發(fā)共享;基因數(shù)據(jù)的安全隱私保護、大規(guī)模數(shù)據(jù)挖掘;按需調(diào)度和彈性擴容等。

此次方案由華大 DNBSEQ 自主測序儀、BGI Online 混合云架構、阿里云容器服務 ACK/AGS 基因服務以及賽樂基因 GPU 加速算法的深度融合而成。其中,華大基因聯(lián)合阿里云的整體技術架構為云原生容器混合云,實現(xiàn)云上云下資源一體,跨地域集群統(tǒng)一管理。憑借云端的自動伸縮特性,實現(xiàn)大規(guī)模彈性調(diào)度計算。

在使用上,該方案用戶無需關心基因數(shù)據(jù)處理過程中的計算資源、處理邏輯、數(shù)據(jù)緩存等細節(jié),只需將下機數(shù)據(jù) (FASTQ文件) 上傳至 OSS,以及授權 Bucket 給 AGS 服務,即可高效、快速完成整個數(shù)據(jù)分析流程,并將結果數(shù)據(jù)上傳到用戶期望的存儲空間。

這套端到端解決方案,無縫銜接測序平臺和基因云平臺,全面支持包括 DNBSEQ 系列測序儀在內(nèi)的多種測序平臺,可按需定制分析流程,交付靈活性極高。

速度更快,精度更高,成本更低

相比同類產(chǎn)品,它在計算速度、精準度、成本、易用性、與上游測序儀的整合度上具有極大優(yōu)勢,在 2020 年,新的 WGS 交付方案將會助力基因科研與臨床檢測再上一個新臺階。

經(jīng)過實際測試,整套方案在 15 分鐘內(nèi)完成了 8 組 30X WGS 樣本二級分析處理。在保證精度的前提下,實現(xiàn) 15 分鐘對 7200 億堿基拼裝、排序、去重、變異檢測,完成基因檢測全流程120倍加速。且經(jīng)過 NA12878 測試數(shù)據(jù)集與金標準 VCF 比較,二級分析的精度高于或等于 BWA-0.7.17/GATK 4.1.3 的數(shù)據(jù)產(chǎn)出,SNP 精度到達 99.80%!

2015 年,我和華大基因立下一個小目標……

圖 2 - 實測 30X WGS N12878 數(shù)據(jù)加速效果

2015 年,我和華大基因立下一個小目標……

圖 3 - 30X WGS 軟件加速一致性
同時, 阿里云 ACK/AGS 提供云上 PaaS 加速能力,以混合云方式協(xié)助華大基因完成自主測序儀大批量下機數(shù)據(jù)分析的近實時交付,可有效降低分析計算成本,縮短該環(huán)節(jié)交付周期。

加速解碼生命進程

此前,線下進行單個樣本的 WGS 分析通常需要 70+ 小時;2016 年底,BGI Online(國際版)實現(xiàn) 17 小時完成 100 個 WGS 分析;2017 年底,時間降至 120 分鐘;到如今攜手阿里云,創(chuàng)下 15 分鐘完成 1 個 WGS 的新紀錄,BGI Online 再次刷新了全基因組分析的速度極限。

隨著精準醫(yī)學人群隊列項目的陸續(xù)啟動,我國自主可控的基因測序與分析平臺顯得愈發(fā)重要。BGI Online 將在未來繼續(xù)完善平臺功能,為用戶提供完整、全面、友好的功能體驗,使生物信息領域的研究更簡單高效。

解碼未知,丈量生命??萍嫉拿恳恍〔?,都會成為人類前行的一大步。華大基因及 BGI Online 將繼續(xù)攜手合作伙伴,共同為基因事業(yè)貢獻力量。

注:人類全基因組測序(Whole Genome Sequencing,簡稱WGS)是利用高通量測序技術對人類不同個體或群體進行全基因組測序,并進行生物信息分析的方法。癌癥和遺傳疾病的深度解析往往需要對大量樣本進行 WGS 測序與分析,而且對 WGS 數(shù)據(jù)的挖掘還能發(fā)現(xiàn)非常多極具價值的遺傳多樣性信息。一個人類全基因組有 30 億堿基,一個 30X 的 WGS 測序數(shù)據(jù)量大約在 100G。

云原生實踐峰會即將開幕

2015 年,我和華大基因立下一個小目標……

“ 阿里巴巴云原生關注微服務、Serverless、容器、Service Mesh 等技術領域、聚焦云原生流行技術趨勢、云原生大規(guī)模的落地實踐,做最懂云原生開發(fā)者的技術圈?!?/p>

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。

AI