編者按:
DNA是破解“生命之謎”的鑰匙,在基因科技中,基因測(cè)序用來發(fā)現(xiàn)問題,基因編輯用來解決問題。
僅僅是基因測(cè)序,目前在數(shù)據(jù)從獲取、存儲(chǔ)、分析上也面臨著挑戰(zhàn),利用云計(jì)算+AI,基因測(cè)序?qū)⒃诳蒲小⑨t(yī)療等方面展現(xiàn)出非凡的能量。
導(dǎo)語
1953年,第一個(gè)DNA分子雙螺旋結(jié)構(gòu)模型誕生;1990年,被稱為生命科學(xué)“登月計(jì)劃”的人類基因組計(jì)劃正式啟動(dòng)。
人類在破解“生命之謎”的路上不斷探索,期待著有一天能夠解讀自己的生命圖紙,排在最前列的問題就是疾病的攻克。但是攻克疾病談何容易,且不論后續(xù)的精準(zhǔn)醫(yī)療和精準(zhǔn)預(yù)防服務(wù),僅僅是基因測(cè)序,目前也面臨成本昂貴的問題。
基因檢測(cè)需要龐大的數(shù)據(jù)庫和算力支撐,以及深度學(xué)習(xí)算法來完成精準(zhǔn)比對(duì)和預(yù)測(cè),依托人工智能,基因檢測(cè)在科研、醫(yī)療、消費(fèi)級(jí)產(chǎn)品等領(lǐng)域會(huì)迸發(fā)更神奇的力量。
01
“萬能”的基因測(cè)序
“一口唾沫,基因數(shù)據(jù)全掌握”,不少人都嘗試過已經(jīng)成為“網(wǎng)紅”的消費(fèi)基因檢測(cè)產(chǎn)品。除了了解自己,基因檢測(cè)能做的事情還有很多。
1. 發(fā)現(xiàn)新冠病毒變株
2020年12月14日,我國監(jiān)測(cè)到首例境外變種新冠毒株,使用的測(cè)序平臺(tái)是華大智造自主研發(fā)的高通量測(cè)序儀——MGISEQ-200。
新冠病毒的不斷變異是當(dāng)前全球面對(duì)的一大挑戰(zhàn),國際知名醫(yī)療期刊《柳葉刀》發(fā)表社論,強(qiáng)調(diào)高效識(shí)別病毒序列是控制疫情的重要環(huán)節(jié),各國測(cè)序水平的差異影響的不止是本國疫情的控制,更是對(duì)全球疫情控制與監(jiān)測(cè)的挑戰(zhàn)。
對(duì)病原全基因組序列進(jìn)行深度測(cè)序,找到病毒突變位點(diǎn),辨明病毒身份,找到病毒來源,可以有效提升疫情防控能力。
2. 預(yù)測(cè)腫瘤
2017年開始,華大基因就與阿里云合作,用人工智能成功預(yù)測(cè)40例孕期腫瘤。
基因測(cè)序技術(shù)運(yùn)用在精準(zhǔn)預(yù)防,比精準(zhǔn)醫(yī)療對(duì)人類的貢獻(xiàn)還要大?;驕y(cè)序可以使疾病早期就被發(fā)現(xiàn),大大提高患者生存率。例如家族性乳腺癌,在美國死亡率降低了80%,就是得益于精準(zhǔn)預(yù)防。其實(shí)中國的腫瘤發(fā)病率占世界的22%,并不比發(fā)達(dá)國家高,但是死亡率卻占到世界死亡率27%。
腫瘤早篩向來被認(rèn)為是攔截癌癥的重要手段,然而在過去受技術(shù)所限,腫瘤早篩在國內(nèi)難以得到普及。隨著越來越多的靶向藥物進(jìn)入國家醫(yī)保,而靶向用藥必須做基因檢測(cè),腫瘤基因檢測(cè)的需求也隨之大幅增長。
3. 預(yù)測(cè)孕期糖尿病
中國每年約有1260萬人備孕,1800萬孕產(chǎn)婦,在這其中,孕期糖尿是最不起眼,最不受人重視,而又極度危險(xiǎn)的敵人,嚴(yán)重病例可以引發(fā)胚胎死亡。
阿里云同吉林省婦幼保健院、青梧桐健康基因合作,推出的基于人工智能算法的基因檢測(cè)技術(shù),可用于妊娠糖尿病風(fēng)險(xiǎn)篩查,預(yù)測(cè)準(zhǔn)確率達(dá)到了83%。
這套算法能根據(jù)孕婦的臨床數(shù)據(jù)和基因數(shù)據(jù),預(yù)測(cè)發(fā)病概率,可比傳統(tǒng)方法提前12-6周進(jìn)行干預(yù),將發(fā)病率降低65%。
02
云計(jì)算+AI:基因測(cè)序的加速器
2016年,華大基因在阿里云計(jì)算平臺(tái)部署的服務(wù)產(chǎn)品BGI Online國內(nèi)beta版本正式上線,希望能夠在2020年以前,用24小時(shí)完成一個(gè)人全基因組測(cè)序和分析。
2020年年初,BGI Online平臺(tái)創(chuàng)下新的世界紀(jì)錄:僅用15分鐘,即可完成一個(gè)高精度的個(gè)人全基因組測(cè)序全流程。此前,科學(xué)界普遍需要120個(gè)小時(shí)才能完成類似流程,此次加速解碼意味著人類向精準(zhǔn)醫(yī)療邁出了重要一步。
1. 天然的大數(shù)據(jù)
基因組學(xué)數(shù)據(jù)是“天然”的大數(shù)據(jù),人一生的基因數(shù)據(jù)的管理和存儲(chǔ)數(shù)據(jù)量相當(dāng)龐大;同時(shí),所有的人工智能前提都是大量的數(shù)據(jù)訓(xùn)練,放在基因檢測(cè)領(lǐng)域,大量數(shù)據(jù)訓(xùn)練的前提則是有大量數(shù)據(jù)產(chǎn)生。
通過阿里云平臺(tái),可以降低數(shù)據(jù)分析門檻、簡化用戶操作,讓數(shù)據(jù)獲取更加便捷。
簡潔易用的界面和高度安全的特性,使醫(yī)生和研究者們可以把管理數(shù)據(jù)、硬件維護(hù)等繁雜的工作交給BGI Online和阿里云,從而更專注于他們要解決的科學(xué)和臨床問題。
這也意味著,對(duì)于科研院所、醫(yī)療機(jī)構(gòu)及中小型基因行業(yè)創(chuàng)業(yè)公司來說,只要擁有基因數(shù)據(jù),不必自建和維護(hù)昂貴而復(fù)雜的計(jì)算、存儲(chǔ)平臺(tái),通過BGI Online便可以解碼神秘基因背后的奧秘。全球最大的基因組學(xué)研發(fā)機(jī)構(gòu)華大基因打開了基因行業(yè)這扇神秘大門,讓基因行業(yè)變得“觸手可及”。
2. 開啟云上算力
由于人類全基因組檢測(cè)數(shù)據(jù)達(dá)到近10G,以國內(nèi)某機(jī)構(gòu)每天產(chǎn)生的數(shù)據(jù)量300T至600T計(jì)算,如此規(guī)模的數(shù)據(jù)量對(duì)存儲(chǔ)系統(tǒng)的容量提出了極高的要求。
從數(shù)據(jù)量來看,DNA測(cè)序每年能夠產(chǎn)生大約150PB的數(shù)據(jù),如果將這些數(shù)據(jù)存儲(chǔ)在DVD中,刻錄出來的DVD高度能夠達(dá)到2.5英里。
從計(jì)算量來看,在對(duì)百萬人的基因數(shù)據(jù)進(jìn)行遺傳結(jié)構(gòu)分析時(shí),需要把每一個(gè)人與剩余的所有人進(jìn)行遺傳距離計(jì)算,這個(gè)計(jì)算量是巨大的,計(jì)算復(fù)雜度已經(jīng)遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)計(jì)算條件下硬件設(shè)備所能承受的能力范圍。
借助阿里云MaxCompute,可以在幾小時(shí)內(nèi)就可以把一個(gè)人與十萬人中所有遺傳距離進(jìn)行計(jì)算,計(jì)算成本大幅降低至1000美金以內(nèi),大大提高了計(jì)算效率。
3. 深度學(xué)習(xí)算法
我們每個(gè)人的基因組只有千分之一的差異,形成了每個(gè)人的多樣性,但是偶爾也有一些小的突變,帶來一些遺傳病。
大多數(shù)疾病由多個(gè)位點(diǎn)控制。位點(diǎn)與位點(diǎn)之間有著復(fù)雜的關(guān)聯(lián),不同位點(diǎn)的變異組合可能會(huì)形成不同的疾病亞型。
在浩如煙海的DNA序列中,比對(duì)識(shí)別出發(fā)生突變的基因位點(diǎn),單單依靠人力,很難理清疾病與位點(diǎn)的對(duì)應(yīng)關(guān)系。
例如孕期糖尿病的液體活檢不復(fù)雜,復(fù)雜的是用人工智能技術(shù)做某一病種的基因比對(duì),并進(jìn)行準(zhǔn)確的預(yù)測(cè)。人工智能通過數(shù)據(jù)預(yù)測(cè)孕婦是否能得糖尿病,比較患病和健康的數(shù)據(jù)。
在多個(gè)疾病的(大數(shù)據(jù)運(yùn)算)測(cè)試中,機(jī)器能夠深度學(xué)習(xí)并掌握人眼觀察圖像、識(shí)別差異的能力,快速提高診療工作效率。
03
基因測(cè)序市場(chǎng)未來可期
中國是全球第一人口大國,在基因測(cè)序領(lǐng)域擁有巨大的市場(chǎng),消費(fèi)級(jí)市場(chǎng)火爆,在研究和醫(yī)療領(lǐng)域也屢有成績。
但是也不能忽視,基因數(shù)據(jù)庫樣本量、基因組數(shù)據(jù)解讀的精準(zhǔn)度上的不足是基因測(cè)序需要解決的瓶頸問題。
如果基因測(cè)序是生命的天氣預(yù)報(bào),那人工智能就是天氣預(yù)報(bào)的超級(jí)汽車引擎,云計(jì)算則是基因測(cè)序的高速公路,以前兩天跑完的路程現(xiàn)在一小時(shí)就能跑完。
基因檢測(cè)需要龐大的數(shù)據(jù)庫和計(jì)算力支撐,人工智能的快速迭代可以讓預(yù)測(cè)的準(zhǔn)確度越來越高,云計(jì)算和人工智能是基因檢測(cè)必然的未來。
結(jié)語
1990年,整個(gè)人類基因組首次被測(cè)序,耗資27億。30年后的今天,得益于測(cè)序技術(shù)和云計(jì)算技術(shù)的成熟,一次全基因組測(cè)序的成本降到了數(shù)百美元。
數(shù)據(jù)、算力、算法,大大降低了人類解碼未知世界的門檻,讓解鎖“生命之謎”的期待越來越近。
來源:阿里云、《中國報(bào)道》
編輯:阿里云研究中心 張楠
(轉(zhuǎn)載)