人工智能

檢測(cè)新冠變種,基因測(cè)序技術(shù)借助AI騰飛

ainet.cn   2021年03月05日

編者按:

  DNA是破解“生命之謎”的鑰匙,在基因科技中,基因測(cè)序用來發(fā)現(xiàn)問題,基因編輯用來解決問題。

  僅僅是基因測(cè)序,目前在數(shù)據(jù)從獲取、存儲(chǔ)、分析上也面臨著挑戰(zhàn),利用云計(jì)算+AI,基因測(cè)序?qū)⒃诳蒲小⑨t(yī)療等方面展現(xiàn)出非凡的能量。

導(dǎo)語

  1953年,第一個(gè)DNA分子雙螺旋結(jié)構(gòu)模型誕生;1990年,被稱為生命科學(xué)“登月計(jì)劃”的人類基因組計(jì)劃正式啟動(dòng)。

  人類在破解“生命之謎”的路上不斷探索,期待著有一天能夠解讀自己的生命圖紙,排在最前列的問題就是疾病的攻克。但是攻克疾病談何容易,且不論后續(xù)的精準(zhǔn)醫(yī)療和精準(zhǔn)預(yù)防服務(wù),僅僅是基因測(cè)序,目前也面臨成本昂貴的問題。

  基因檢測(cè)需要龐大的數(shù)據(jù)庫和算力支撐,以及深度學(xué)習(xí)算法來完成精準(zhǔn)比對(duì)和預(yù)測(cè),依托人工智能,基因檢測(cè)在科研、醫(yī)療、消費(fèi)級(jí)產(chǎn)品等領(lǐng)域會(huì)迸發(fā)更神奇的力量。

01

“萬能”的基因測(cè)序

  “一口唾沫,基因數(shù)據(jù)全掌握”,不少人都嘗試過已經(jīng)成為“網(wǎng)紅”的消費(fèi)基因檢測(cè)產(chǎn)品。除了了解自己,基因檢測(cè)能做的事情還有很多。

  1. 發(fā)現(xiàn)新冠病毒變株

  2020年12月14日,我國監(jiān)測(cè)到首例境外變種新冠毒株,使用的測(cè)序平臺(tái)是華大智造自主研發(fā)的高通量測(cè)序儀——MGISEQ-200。

  新冠病毒的不斷變異是當(dāng)前全球面對(duì)的一大挑戰(zhàn),國際知名醫(yī)療期刊《柳葉刀》發(fā)表社論,強(qiáng)調(diào)高效識(shí)別病毒序列是控制疫情的重要環(huán)節(jié),各國測(cè)序水平的差異影響的不止是本國疫情的控制,更是對(duì)全球疫情控制與監(jiān)測(cè)的挑戰(zhàn)。

  對(duì)病原全基因組序列進(jìn)行深度測(cè)序,找到病毒突變位點(diǎn),辨明病毒身份,找到病毒來源,可以有效提升疫情防控能力。

2. 預(yù)測(cè)腫瘤

  2017年開始,華大基因就與阿里云合作,用人工智能成功預(yù)測(cè)40例孕期腫瘤。

  基因測(cè)序技術(shù)運(yùn)用在精準(zhǔn)預(yù)防,比精準(zhǔn)醫(yī)療對(duì)人類的貢獻(xiàn)還要大?;驕y(cè)序可以使疾病早期就被發(fā)現(xiàn),大大提高患者生存率。例如家族性乳腺癌,在美國死亡率降低了80%,就是得益于精準(zhǔn)預(yù)防。其實(shí)中國的腫瘤發(fā)病率占世界的22%,并不比發(fā)達(dá)國家高,但是死亡率卻占到世界死亡率27%。

  腫瘤早篩向來被認(rèn)為是攔截癌癥的重要手段,然而在過去受技術(shù)所限,腫瘤早篩在國內(nèi)難以得到普及。隨著越來越多的靶向藥物進(jìn)入國家醫(yī)保,而靶向用藥必須做基因檢測(cè),腫瘤基因檢測(cè)的需求也隨之大幅增長。

3. 預(yù)測(cè)孕期糖尿病

  中國每年約有1260萬人備孕,1800萬孕產(chǎn)婦,在這其中,孕期糖尿是最不起眼,最不受人重視,而又極度危險(xiǎn)的敵人,嚴(yán)重病例可以引發(fā)胚胎死亡。

  阿里云同吉林省婦幼保健院、青梧桐健康基因合作,推出的基于人工智能算法的基因檢測(cè)技術(shù),可用于妊娠糖尿病風(fēng)險(xiǎn)篩查,預(yù)測(cè)準(zhǔn)確率達(dá)到了83%。

  這套算法能根據(jù)孕婦的臨床數(shù)據(jù)和基因數(shù)據(jù),預(yù)測(cè)發(fā)病概率,可比傳統(tǒng)方法提前12-6周進(jìn)行干預(yù),將發(fā)病率降低65%。

02

云計(jì)算+AI:基因測(cè)序的加速器

  2016年,華大基因在阿里云計(jì)算平臺(tái)部署的服務(wù)產(chǎn)品BGI Online國內(nèi)beta版本正式上線,希望能夠在2020年以前,用24小時(shí)完成一個(gè)人全基因組測(cè)序和分析。

  2020年年初,BGI Online平臺(tái)創(chuàng)下新的世界紀(jì)錄:僅用15分鐘,即可完成一個(gè)高精度的個(gè)人全基因組測(cè)序全流程。此前,科學(xué)界普遍需要120個(gè)小時(shí)才能完成類似流程,此次加速解碼意味著人類向精準(zhǔn)醫(yī)療邁出了重要一步。

  1. 天然的大數(shù)據(jù)

  基因組學(xué)數(shù)據(jù)是“天然”的大數(shù)據(jù),人一生的基因數(shù)據(jù)的管理和存儲(chǔ)數(shù)據(jù)量相當(dāng)龐大;同時(shí),所有的人工智能前提都是大量的數(shù)據(jù)訓(xùn)練,放在基因檢測(cè)領(lǐng)域,大量數(shù)據(jù)訓(xùn)練的前提則是有大量數(shù)據(jù)產(chǎn)生。

  通過阿里云平臺(tái),可以降低數(shù)據(jù)分析門檻、簡化用戶操作,讓數(shù)據(jù)獲取更加便捷。

  簡潔易用的界面和高度安全的特性,使醫(yī)生和研究者們可以把管理數(shù)據(jù)、硬件維護(hù)等繁雜的工作交給BGI Online和阿里云,從而更專注于他們要解決的科學(xué)和臨床問題。

  這也意味著,對(duì)于科研院所、醫(yī)療機(jī)構(gòu)及中小型基因行業(yè)創(chuàng)業(yè)公司來說,只要擁有基因數(shù)據(jù),不必自建和維護(hù)昂貴而復(fù)雜的計(jì)算、存儲(chǔ)平臺(tái),通過BGI Online便可以解碼神秘基因背后的奧秘。全球最大的基因組學(xué)研發(fā)機(jī)構(gòu)華大基因打開了基因行業(yè)這扇神秘大門,讓基因行業(yè)變得“觸手可及”。

  2. 開啟云上算力

  由于人類全基因組檢測(cè)數(shù)據(jù)達(dá)到近10G,以國內(nèi)某機(jī)構(gòu)每天產(chǎn)生的數(shù)據(jù)量300T至600T計(jì)算,如此規(guī)模的數(shù)據(jù)量對(duì)存儲(chǔ)系統(tǒng)的容量提出了極高的要求。

  從數(shù)據(jù)量來看,DNA測(cè)序每年能夠產(chǎn)生大約150PB的數(shù)據(jù),如果將這些數(shù)據(jù)存儲(chǔ)在DVD中,刻錄出來的DVD高度能夠達(dá)到2.5英里。

  從計(jì)算量來看,在對(duì)百萬人的基因數(shù)據(jù)進(jìn)行遺傳結(jié)構(gòu)分析時(shí),需要把每一個(gè)人與剩余的所有人進(jìn)行遺傳距離計(jì)算,這個(gè)計(jì)算量是巨大的,計(jì)算復(fù)雜度已經(jīng)遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)計(jì)算條件下硬件設(shè)備所能承受的能力范圍。

  借助阿里云MaxCompute,可以在幾小時(shí)內(nèi)就可以把一個(gè)人與十萬人中所有遺傳距離進(jìn)行計(jì)算,計(jì)算成本大幅降低至1000美金以內(nèi),大大提高了計(jì)算效率。

  3. 深度學(xué)習(xí)算法

  我們每個(gè)人的基因組只有千分之一的差異,形成了每個(gè)人的多樣性,但是偶爾也有一些小的突變,帶來一些遺傳病。

  大多數(shù)疾病由多個(gè)位點(diǎn)控制。位點(diǎn)與位點(diǎn)之間有著復(fù)雜的關(guān)聯(lián),不同位點(diǎn)的變異組合可能會(huì)形成不同的疾病亞型。

  在浩如煙海的DNA序列中,比對(duì)識(shí)別出發(fā)生突變的基因位點(diǎn),單單依靠人力,很難理清疾病與位點(diǎn)的對(duì)應(yīng)關(guān)系。

  例如孕期糖尿病的液體活檢不復(fù)雜,復(fù)雜的是用人工智能技術(shù)做某一病種的基因比對(duì),并進(jìn)行準(zhǔn)確的預(yù)測(cè)。人工智能通過數(shù)據(jù)預(yù)測(cè)孕婦是否能得糖尿病,比較患病和健康的數(shù)據(jù)。

  在多個(gè)疾病的(大數(shù)據(jù)運(yùn)算)測(cè)試中,機(jī)器能夠深度學(xué)習(xí)并掌握人眼觀察圖像、識(shí)別差異的能力,快速提高診療工作效率。

03

基因測(cè)序市場(chǎng)未來可期

  中國是全球第一人口大國,在基因測(cè)序領(lǐng)域擁有巨大的市場(chǎng),消費(fèi)級(jí)市場(chǎng)火爆,在研究和醫(yī)療領(lǐng)域也屢有成績。

  但是也不能忽視,基因數(shù)據(jù)庫樣本量、基因組數(shù)據(jù)解讀的精準(zhǔn)度上的不足是基因測(cè)序需要解決的瓶頸問題。

  如果基因測(cè)序是生命的天氣預(yù)報(bào),那人工智能就是天氣預(yù)報(bào)的超級(jí)汽車引擎,云計(jì)算則是基因測(cè)序的高速公路,以前兩天跑完的路程現(xiàn)在一小時(shí)就能跑完。

  基因檢測(cè)需要龐大的數(shù)據(jù)庫和計(jì)算力支撐,人工智能的快速迭代可以讓預(yù)測(cè)的準(zhǔn)確度越來越高,云計(jì)算和人工智能是基因檢測(cè)必然的未來。

結(jié)語

  1990年,整個(gè)人類基因組首次被測(cè)序,耗資27億。30年后的今天,得益于測(cè)序技術(shù)和云計(jì)算技術(shù)的成熟,一次全基因組測(cè)序的成本降到了數(shù)百美元。

  數(shù)據(jù)、算力、算法,大大降低了人類解碼未知世界的門檻,讓解鎖“生命之謎”的期待越來越近。

  來源:阿里云、《中國報(bào)道》

  編輯:阿里云研究中心 張楠

(轉(zhuǎn)載)

標(biāo)簽:人工智能 新冠變種 我要反饋 
泰科電子ECK、ECP系列高壓直流接觸器白皮書下載
優(yōu)傲機(jī)器人下載中心
億萬克
專題報(bào)道
2025世界人工智能大會(huì)
2025世界人工智能大會(huì)

2025世界人工智能大會(huì)暨人工智能全球治理高級(jí)別會(huì)議(簡稱“WAIC 2025”)將于7月在上海世博中心和世博展覽館舉行... [更多]

加入全球AI浪潮第一現(xiàn)場(chǎng)
加入全球AI浪潮第一現(xiàn)場(chǎng)

2025世界人工智能大會(huì)暨人工智能全球治理高級(jí)別會(huì)議將于7月26日至28日在上海世博中心和世博展覽館舉辦,本屆大會(huì)主題為... [更多]

聚力同行 · 新智“碳”索
聚力同行 · 新智“碳”索

“新華社-智能·零碳”項(xiàng)目策劃以“聚力同行·新智‘碳’索”為主題的新能源專題,主要圍繞光伏、儲(chǔ)能、鋰電、氫能、風(fēng)能五大新... [更多]