一、什么是生命大數(shù)據(jù)
生命是這個世界重要的組成部分,生命活動是通過生物作為載體形成的,在生物學(xué)和統(tǒng)計(jì)學(xué)上這樣的生物體稱之為生物樣本。生物樣本在生命活動中產(chǎn)生大量的數(shù)據(jù),主要包括生物體數(shù)據(jù)和行為數(shù)據(jù)。生物體數(shù)據(jù)是指單個樣本或者群體樣本貫穿整個時間和空間形成的生物組學(xué)數(shù)據(jù)和生物樣本元數(shù)據(jù),是對生物體樣本在客觀世界的描述。其中生物組學(xué)數(shù)據(jù)沿著中心法則的轉(zhuǎn)化依此形成:基因組數(shù)據(jù)、轉(zhuǎn)錄組數(shù)據(jù)、表觀組數(shù)據(jù)、蛋白質(zhì)組數(shù)據(jù)、代謝組數(shù)據(jù)、時空組數(shù)據(jù)等,組學(xué)數(shù)據(jù)從根本上解釋了生物體的生物學(xué)過程。生物元數(shù)據(jù)常被稱為表型數(shù)據(jù),是描述生物樣本的元數(shù)據(jù),沒有明確的邊界,只要是有意義的、可描述的、可量化的屬性就行,主要反映一個樣本的某種存在形式和狀態(tài)。生物樣本數(shù)據(jù)可以從生態(tài)、群體、個體、組織等宏觀角度來觀測,也可以從細(xì)胞、分子等微觀角度來采集,同時在不同觀測角度上又具有組份、結(jié)構(gòu)、順序等描述維度。
數(shù)據(jù)是事物的抽象存在,人類建立了一套通過數(shù)據(jù)來描述和認(rèn)識世界的知識體系,所以數(shù)據(jù)的形成是人類文明形成的基石。隨著數(shù)字化和信息化技術(shù)的進(jìn)步,自然科學(xué)研究的對象逐漸由事物本身轉(zhuǎn)變?yōu)槊枋鍪挛锏臄?shù)據(jù),進(jìn)而形成了新的自然科學(xué)研究范式,即由吉姆·格雷提出的自然科學(xué)研究第四范式:“隨著數(shù)據(jù)的爆炸性增長,計(jì)算機(jī)將不僅僅能做模擬仿真,還能進(jìn)行分析總結(jié),得到理論。”。“大數(shù)據(jù)科學(xué)”通常的實(shí)施路徑為使用應(yīng)用數(shù)學(xué)將研究問題轉(zhuǎn)化成數(shù)學(xué)模型,再通過計(jì)算數(shù)學(xué)將數(shù)學(xué)模型轉(zhuǎn)變成計(jì)算模型,計(jì)算模型作為軟件工程的輸入需求經(jīng)過程序設(shè)計(jì)得到計(jì)算軟件。“大數(shù)據(jù)科學(xué)”處理的大數(shù)據(jù)一般來自于真實(shí)世界,能反映真實(shí)世界的客觀情況,避免了“實(shí)驗(yàn)科學(xué)”中樣本特殊性對結(jié)論代表性的影響。故而圍繞真實(shí)世界大樣本、多維度、多鏈接的大數(shù)據(jù)研究,對于自然科學(xué)的研究和應(yīng)用具有很重要的意義。
生命大數(shù)據(jù)是一個全新的概念,對于生命大數(shù)據(jù)暫時沒有權(quán)威的定義,但是從事基因組學(xué)、群體遺傳學(xué)、蛋白分子結(jié)構(gòu)等方向的研究人員,日常工作就是通過大規(guī)模計(jì)算處理大量數(shù)據(jù)得到研究結(jié)果,從某種角度來講他們一直在從事生命大數(shù)據(jù)。在互聯(lián)網(wǎng)領(lǐng)域IBM提出了大數(shù)據(jù)的“5V”特征,即:大數(shù)據(jù)量、多樣性、真實(shí)性、增值性和快速交互。但是生命科學(xué)是圍繞認(rèn)識種族、發(fā)育、遺傳、活動、生殖、病變的科學(xué),在應(yīng)用場景上與互聯(lián)網(wǎng)領(lǐng)域相較發(fā)生了巨大變化,故對于生命大數(shù)據(jù)的認(rèn)識不能照搬互聯(lián)網(wǎng)大數(shù)據(jù)的理解。其中生命大數(shù)據(jù)處理的生命數(shù)據(jù)更多是將生命數(shù)字化后的數(shù)據(jù),如基因數(shù)據(jù)、影像數(shù)據(jù)、分子結(jié)構(gòu)數(shù)據(jù)等,而互聯(lián)網(wǎng)大數(shù)據(jù)處理的更多是通過各種感受器采集的信息,如:文本、圖片、視頻等。綜上,對于生命大數(shù)據(jù)可理解為通過“大數(shù)據(jù)科學(xué)”的范式處理各種生命數(shù)據(jù),得到有價值結(jié)果的過程。
二、生命大數(shù)據(jù)的應(yīng)用
生命大數(shù)據(jù)在生命科學(xué)領(lǐng)域越發(fā)重要,近年來大規(guī)模人群基因組學(xué)研究項(xiàng)目方興未艾,相關(guān)成果陸續(xù)發(fā)布,標(biāo)志著生命科學(xué)產(chǎn)業(yè)和精準(zhǔn)醫(yī)學(xué)正式進(jìn)入了基因大數(shù)據(jù)時代。據(jù)不完全統(tǒng)計(jì)全球有20多個國家和地區(qū)宣布啟動基因組計(jì)劃,人群規(guī)模從數(shù)十萬、數(shù)百萬到全民,大量的人群被納入人類遺傳資源研究的隊(duì)列。群體遺傳學(xué)研究是生命大數(shù)據(jù)重要的應(yīng)用場景,因?yàn)槎嘟M學(xué)數(shù)據(jù)的規(guī)模及遺傳資源的多樣性,決定了需要大規(guī)模的遺傳樣本才能更好的描述人群的遺傳背景。除了群體遺傳學(xué)研究,在大規(guī)模的慢性疾病研究隊(duì)列、公共衛(wèi)生流行病學(xué)研究中也有很廣泛的應(yīng)用空間。在分子生物學(xué)研究中,科研人員利用大數(shù)據(jù)技術(shù)分析已有蛋白質(zhì)分子的同源結(jié)構(gòu)預(yù)測未知的蛋白質(zhì)分子高級結(jié)構(gòu),取得了很好的效果。生命大數(shù)據(jù)在分子遺傳學(xué)上研究生命活動規(guī)律、生命的本質(zhì)、生命的發(fā)育規(guī)律,以及各種生物之間和生物與環(huán)境之間相互關(guān)系,最終能夠達(dá)到治療診斷遺傳病、提高農(nóng)作物產(chǎn)量、改善人類生活、保護(hù)環(huán)境等目的。
在生命健康產(chǎn)業(yè)方面,生命大數(shù)據(jù)的應(yīng)用處于起步階段,從國家衛(wèi)生健康戰(zhàn)略規(guī)劃到互聯(lián)網(wǎng)公司的跨界入局呈多種形態(tài)發(fā)展。通過對已有病歷數(shù)據(jù)的挖掘可以形成智能輔助診斷系統(tǒng),提升臨床診斷的有效性并優(yōu)化了醫(yī)療資源的合理配置。如果能在病歷數(shù)據(jù)的基礎(chǔ)上綜合檢測數(shù)據(jù)(生化檢測數(shù)據(jù)、分子檢測數(shù)據(jù)、影像數(shù)據(jù)等)和參考數(shù)據(jù)(臨床診斷標(biāo)準(zhǔn)、參考基因組、遺傳變異圖譜等),則能大大的優(yōu)化智能輔助診療模型,實(shí)現(xiàn)復(fù)雜醫(yī)學(xué)知識庫與個性化醫(yī)學(xué)服務(wù)的有機(jī)結(jié)合。健康醫(yī)療大數(shù)據(jù)是推進(jìn)醫(yī)療健康管理體系改革的重要技術(shù)手段,也是推進(jìn)循證醫(yī)學(xué)向精準(zhǔn)醫(yī)學(xué)發(fā)展的重要技術(shù)手段之一。在健康管理方面,隨著個人智能穿戴設(shè)備的快速普及,形成了在科學(xué)運(yùn)動、健康飲食方面的簡單應(yīng)用場景。但是受限于生物數(shù)據(jù)的無創(chuàng)采集技術(shù)及遺傳信息的缺乏,對健康檢測數(shù)據(jù)進(jìn)行挖掘利用的價值還沒有凸顯出來。
從長遠(yuǎn)的角度看,生命大數(shù)據(jù)最終是要實(shí)現(xiàn)對生命的數(shù)字模擬。具有完整的組學(xué)數(shù)據(jù)、元數(shù)據(jù)和行為數(shù)據(jù)可以對生物體進(jìn)行模擬,再加上對生物體形成影響的外部環(huán)境數(shù)據(jù)即可形成對生命活動進(jìn)行模擬。如果這些數(shù)據(jù)是持續(xù)的,那么則可以對模擬的生命進(jìn)行預(yù)測,到那個時候活在硬盤里將不是夢。
三、生命大數(shù)據(jù)實(shí)踐途徑
數(shù)字經(jīng)濟(jì)時代下,數(shù)據(jù)是最重要的生產(chǎn)要素。生命大數(shù)據(jù)就是將生命數(shù)據(jù)作為原料的產(chǎn)業(yè),這條產(chǎn)業(yè)鏈由上而下為數(shù)據(jù)的采集、清洗、匯集、治理、挖掘與利用。當(dāng)然整個過程中都要以項(xiàng)目目的為導(dǎo)向,圍繞數(shù)據(jù)價值從低密度向高密度轉(zhuǎn)化為宗旨開展工作。
生命數(shù)據(jù)的采集:數(shù)據(jù)的采集是最重要的一步,因?yàn)檫@是數(shù)據(jù)價值的源頭,包含了數(shù)據(jù)的所有價值,直接影響到目標(biāo)的達(dá)成。當(dāng)前具有重大價值的生命數(shù)據(jù)主要還是通過專業(yè)的醫(yī)療手段來采集,獲取成本高且數(shù)據(jù)類型單一。同時數(shù)據(jù)的持續(xù)性也難以保障,生命數(shù)據(jù)的波動范圍和數(shù)據(jù)的閾值范圍對于生命活動具有同等重要的意義。數(shù)據(jù)的采集嚴(yán)重依賴生物信號的數(shù)字化技術(shù)以及數(shù)據(jù)主權(quán)確權(quán)的技術(shù)。
生命數(shù)據(jù)的清洗:將采集的數(shù)據(jù)根據(jù)項(xiàng)目目的進(jìn)行過濾,清除不相關(guān)數(shù)據(jù)及噪音數(shù)據(jù),并按統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范進(jìn)行整理的過程。數(shù)據(jù)的清洗關(guān)系著數(shù)據(jù)價值的丟失和數(shù)據(jù)價值密度提升的效率,直接影響到模型輸出的指標(biāo)。數(shù)據(jù)的清洗需要注意數(shù)據(jù)價值的判斷、數(shù)據(jù)度量的統(tǒng)一等。
生命數(shù)據(jù)的匯集:在互聯(lián)網(wǎng)發(fā)達(dá)的今天,通過互聯(lián)網(wǎng)匯集數(shù)據(jù)是首要的選擇,但是需要保障網(wǎng)絡(luò)傳輸中的數(shù)據(jù)安全。對于結(jié)構(gòu)化數(shù)據(jù)可以通過B/S結(jié)構(gòu)以服務(wù)上報(bào)的形式匯集,對于非結(jié)構(gòu)化數(shù)據(jù)可以通過C/S結(jié)構(gòu)采用各種文件傳輸協(xié)議進(jìn)行數(shù)據(jù)傳輸。
生命數(shù)據(jù)的治理:數(shù)據(jù)治理是指將零散、混亂的數(shù)據(jù)進(jìn)行管控變?yōu)橛行蚪y(tǒng)一數(shù)據(jù)的過程。匯集的數(shù)據(jù)是多元、多類型的,根據(jù)不同數(shù)據(jù)結(jié)構(gòu)特點(diǎn)設(shè)計(jì)不同的管控方案。對于一些公共數(shù)據(jù)一般整理為獨(dú)立文件形式,結(jié)構(gòu)化數(shù)據(jù)通過數(shù)據(jù)庫來存儲和管理,非結(jié)構(gòu)化數(shù)據(jù)采用文件系統(tǒng)存儲和管理,基于大數(shù)據(jù)的特點(diǎn)一般都采用分布式技術(shù)來支持,例如:Hbase、HIVE、HDFS等。除了對數(shù)據(jù)進(jìn)行存儲和管理外,還需要建立不同數(shù)據(jù)之間的聯(lián)系使之聚合,例如建立數(shù)據(jù)索引、數(shù)據(jù)標(biāo)簽、數(shù)據(jù)轉(zhuǎn)化等。
生命數(shù)據(jù)的挖掘:數(shù)據(jù)挖掘過程的總體目標(biāo)是從一個數(shù)據(jù)集中提取信息,并將其轉(zhuǎn)換成可理解的結(jié)構(gòu),以進(jìn)一步使用。除了原始分析步驟,它還涉及到數(shù)據(jù)庫和數(shù)據(jù)管理方面、數(shù)據(jù)預(yù)處理、模型與推斷方面考量、興趣度度量、復(fù)雜度的考慮,以及發(fā)現(xiàn)結(jié)構(gòu)、可視化及實(shí)時更新等后處理。由于處理的數(shù)據(jù)量大,算力需求大,通常采用分布式計(jì)算來支撐。
生命數(shù)據(jù)的利用:在群體遺傳學(xué)研究中,通過大數(shù)據(jù)處理群體樣本的基因數(shù)據(jù)和表型數(shù)據(jù),可以在群體層面上分析遺傳的結(jié)構(gòu)、遺傳上的特點(diǎn)、遺傳與性狀的關(guān)聯(lián)等,在遺傳基線、進(jìn)化過程、疾病機(jī)制等方面有重要應(yīng)用。近些年出現(xiàn)了大量的智能輔助診斷系統(tǒng),通過對大量病例的學(xué)習(xí)建立臨床性狀、檢測指標(biāo)與疾病的關(guān)系,幫助臨床的診療。根據(jù)公共衛(wèi)生以防為主、關(guān)口前移的思路,對于健康檢測數(shù)據(jù)的大數(shù)據(jù)應(yīng)用前景更加光明。
在實(shí)際的項(xiàng)目中,生命大數(shù)據(jù)實(shí)施途徑可能不盡相同,但是圍繞生命數(shù)據(jù)進(jìn)行價值密度提升的宗旨是不變的。
四、生命大數(shù)據(jù)涉及的技術(shù)
生命大數(shù)據(jù)是生命科學(xué)和數(shù)據(jù)科學(xué)的交叉領(lǐng)域,涉及遺傳學(xué)、分子生物學(xué)、基因組學(xué)、醫(yī)學(xué)、應(yīng)用數(shù)學(xué)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和計(jì)算科學(xué)等眾多學(xué)科領(lǐng)域。近年來部分高校將這一領(lǐng)域獨(dú)立出來成立了生物信息學(xué),較系統(tǒng)的建立了相關(guān)知識體系。大數(shù)據(jù)具有三大要素即:算力、算法和數(shù)據(jù),這里簡單圍繞生命大數(shù)據(jù)的這三方面解釋相關(guān)技術(shù)。
1、算力
曾今算力是阻礙大數(shù)據(jù)發(fā)展的重要因素,近些年來隨著芯片技術(shù)和軟件技術(shù)的發(fā)展,涌現(xiàn)了大量的大數(shù)據(jù)框架,在批處理、流式數(shù)據(jù)處理方面建立了很好的應(yīng)用示范。在硬件方面通常還是使用基于X86體系架構(gòu)的CPU芯片,在一些特殊的應(yīng)用場景使用FPGA芯片進(jìn)行加速,也有人嘗試在GPU上進(jìn)行生物信息分析。隨著生命健康產(chǎn)業(yè)的不斷壯大,相信有一天會出現(xiàn)處理基因數(shù)據(jù)的定制芯片。關(guān)于算力的組織可以分為兩個層面,底層的資源管理和上層的資源利用。
這里的資源管理指的是對提供計(jì)算和存儲服務(wù)器的管理。面向應(yīng)用層將大量的服務(wù)器通過集群技術(shù)組成一個統(tǒng)一整體,像一臺超級計(jì)算機(jī)一樣提供算力和存儲的方式稱為集群技術(shù)。面向物理層將一臺物理計(jì)算機(jī)的線程隊(duì)列和存儲資源劃分為多個更小的資源池,每一個資源池由獨(dú)立的操作系統(tǒng)來管理,形成更小資源顆粒度靈活管理的方式稱為虛擬化。通過以上技術(shù)對資源進(jìn)行有效配置,再運(yùn)用“軟件定義資源”的方式將資源轉(zhuǎn)化為服務(wù)便是我們經(jīng)常聽到的云計(jì)算。在實(shí)際場景中運(yùn)用以上一種或者多種方式對資源進(jìn)行管理即可,最常見的資源管理框架有OpenStack,很多云服務(wù)產(chǎn)品都是基于它定制開發(fā)的。
對于資源的利用是與業(yè)務(wù)場景深度綁定的,根據(jù)業(yè)務(wù)特點(diǎn)統(tǒng)籌計(jì)算、存儲和網(wǎng)絡(luò)資源,以達(dá)到按時完成計(jì)算任務(wù)和實(shí)現(xiàn)高效的資源利用的目的。在大規(guī)模生物信息分析場景,具有資源密集和算法多樣性的顯著特點(diǎn),包括I/O密集、計(jì)算密集和數(shù)據(jù)密集。這些業(yè)務(wù)特點(diǎn)對生物信息計(jì)算框架提出了挑戰(zhàn),故當(dāng)前行業(yè)里面大多還是使用簡單的網(wǎng)格計(jì)算框架來靈活解決。常用的解決方案還是高性能計(jì)算(HPC),其中因?yàn)楣蚕韮?nèi)存計(jì)算的成本偏高,通常采用分布式內(nèi)存集群方案。在基因數(shù)據(jù)呈超摩爾速度增長的時候,面向生物信息分析的計(jì)算框架迫在眉睫,好在前不久有機(jī)構(gòu)在hadoop的基礎(chǔ)上進(jìn)行了不錯的優(yōu)化嘗試。對于新計(jì)算框架的開發(fā)需要注意以下問題:1、降低計(jì)算過程的數(shù)據(jù)I/O;2、對于計(jì)算、存儲資源的高效利用;3、完善的容錯機(jī)制;4、降低分析時長。
2、算法
面對生命大數(shù)據(jù)的大樣本量和片段化數(shù)據(jù)很自然想到用統(tǒng)計(jì)學(xué)的方法來處理,NGS數(shù)據(jù)分析的每個環(huán)節(jié)參數(shù)的把握,每個圖表的理解背后都是統(tǒng)計(jì)學(xué)背景知識。從描述數(shù)據(jù)到假設(shè)檢驗(yàn),再到參數(shù)估計(jì)都是生物信息算法中重要的理論知識。在生物信息算法開發(fā)中針對數(shù)據(jù)的特點(diǎn)常需要做假設(shè)檢驗(yàn)、主成分分析、關(guān)聯(lián)分析、回歸分析等,過去幾十年圍繞組學(xué)數(shù)據(jù)利用統(tǒng)計(jì)學(xué)開發(fā)了大量的生物信息工具,較為常用的有BWA、GATK等。機(jī)器學(xué)習(xí)拓展了統(tǒng)計(jì)學(xué)的范疇,在對大樣本量的特征提取和趨勢分析時,使用機(jī)器學(xué)習(xí)的方案進(jìn)行聚類分析、模式分析、預(yù)測分析等,近年來機(jī)器學(xué)習(xí)算法在生命大數(shù)據(jù)上的應(yīng)用呈上升趨勢。不管是統(tǒng)計(jì)學(xué)還是機(jī)器學(xué)習(xí),在處理數(shù)據(jù)時都要對每一個樣本進(jìn)行讀寫,故形成了資源密集的特點(diǎn)。生命大數(shù)據(jù)中數(shù)據(jù)類型多樣,有串行的文本數(shù)據(jù)、矩陣的影像數(shù)據(jù)等,針對不同數(shù)據(jù)結(jié)構(gòu)的輸入需要設(shè)計(jì)相應(yīng)的算法加以處理。有了數(shù)學(xué)的理論基礎(chǔ)將數(shù)據(jù)模型開發(fā)成算法軟件就是軟件工程的職責(zé)了,但是生物信息的開發(fā)人員普遍缺乏軟件工程的能力,所以現(xiàn)在成體系、高效率的生物信息軟件還是不多。
3、數(shù)據(jù)
生命大數(shù)據(jù)反映的是生命的某種信號,將生物信號數(shù)字化的技術(shù)尤為重要,在醫(yī)學(xué)上通常是采用生物化學(xué)、電磁影像、光譜色譜等方法,在遺傳方面集生化、光譜、影像技術(shù)于一體開發(fā)了測序技術(shù),最常見的數(shù)據(jù)化技術(shù)還是調(diào)研。采集的數(shù)據(jù)通過互聯(lián)網(wǎng)進(jìn)行匯集涉及到互聯(lián)網(wǎng)的傳輸協(xié)議和數(shù)據(jù)加密技術(shù)。對于大數(shù)據(jù)存儲通常采用分布式存儲技術(shù),分布式存儲根據(jù)存儲協(xié)議不同分為存儲區(qū)域網(wǎng)絡(luò)(SAN)、并行文件存儲(NAS)和對象存儲(BOS)等,對于存儲方案的選擇需要結(jié)合計(jì)算框架進(jìn)行選型。在實(shí)際應(yīng)用中通常對數(shù)據(jù)進(jìn)行分級存儲,采用便宜的設(shè)備搭建歸檔存儲,采用高性能設(shè)備搭建熱存儲用于數(shù)據(jù)計(jì)算時頻繁的讀寫。在對生命大數(shù)據(jù)加以利用時,需要關(guān)注數(shù)據(jù)的安全和確權(quán),便將區(qū)塊鏈技術(shù)應(yīng)用到了生命大數(shù)據(jù)中。行業(yè)內(nèi)已經(jīng)建立了多個聯(lián)盟鏈用于數(shù)據(jù)的共享,公有鏈用于開拓生物數(shù)據(jù)服務(wù)業(yè)務(wù)。基因數(shù)據(jù)直接上鏈難度較大,所以大多數(shù)都是將基因數(shù)據(jù)操作記錄上鏈。在人人基因組時代,為了保障基因數(shù)據(jù)價值,區(qū)塊鏈技術(shù)將大有可為。
五、發(fā)展前景
對于生命探索的意義是不言而喻的,人類文明首次站在了從宏觀到微觀全面認(rèn)識自身的起點(diǎn),終將走向生命的全面數(shù)字化,將以全新的存在方式顛覆對于生命的定義。隨著多組學(xué)技術(shù)的發(fā)展,特別是近期時空組學(xué)的技術(shù),奠定了生物學(xué)分子層面的理論基礎(chǔ),加上大數(shù)據(jù)技術(shù)、機(jī)器學(xué)習(xí)、計(jì)算科學(xué)等信息技術(shù)的發(fā)展,融合BT與IT形成生命大數(shù)據(jù)發(fā)展與應(yīng)用的技術(shù)支撐。二代測序技術(shù)帶來的生命數(shù)據(jù)成本紅利得以體現(xiàn),數(shù)以ZB級的生命數(shù)據(jù)源源不斷的產(chǎn)生,將催生新的應(yīng)用場景和模式。有了應(yīng)用上的價值、有了實(shí)施的技術(shù)、有了作為生產(chǎn)要素的數(shù)據(jù),生命大數(shù)據(jù)將迎來爆發(fā)式的發(fā)展。