科學(xué)精神在基層
點(diǎn)擊進(jìn)入“百邁客云”官方網(wǎng)站,你可以看到中國(guó)大豆數(shù)據(jù)中心、蕓薹屬植物基因組數(shù)據(jù)庫(kù)。此外,在其公共數(shù)據(jù)庫(kù)里,你還可以訪問(wèn)8個(gè)主題的大數(shù)據(jù)庫(kù),包含了11PB公共數(shù)據(jù)、373萬(wàn)樣本。
打造基因大數(shù)據(jù)云平臺(tái),是北京百邁客生物科技有限公司(以下簡(jiǎn)稱百邁客)創(chuàng)始人鄭洪坤手頭正在做的一件大事。“我們的目標(biāo)是將這一平臺(tái)建成全球性基因大數(shù)據(jù)管理平臺(tái)。”鄭洪坤8月20日在接受科技日?qǐng)?bào)記者采訪時(shí)表示。
瞄準(zhǔn)需求,簡(jiǎn)化基因組測(cè)序技術(shù)
2002年,大學(xué)畢業(yè)的鄭洪坤進(jìn)入深圳華大基因科技有限公司(以下簡(jiǎn)稱華大基因),從事生物信息技術(shù)研發(fā)工作。在華大基因工作的數(shù)年間,他迅速?gòu)囊幻夹g(shù)員成長(zhǎng)為項(xiàng)目負(fù)責(zé)人、營(yíng)銷總監(jiān)、副總裁。
盡管做出了令旁人艷羨的工作業(yè)績(jī),但鄭洪坤并沒(méi)有選擇安于現(xiàn)狀。2009年,他帶領(lǐng)十幾人的團(tuán)隊(duì),在北京市順義區(qū)成立了百邁客。
“一方面,我感覺(jué)在原公司往上發(fā)展的空間有限;另一方面,經(jīng)過(guò)市場(chǎng)歷練,我逐漸意識(shí)到用大數(shù)據(jù)對(duì)基因測(cè)序結(jié)果進(jìn)行挖掘分析有著廣闊的市場(chǎng)前景,而這也是當(dāng)時(shí)我所在的公司不太重視的方向。”鄭洪坤在回憶創(chuàng)業(yè)初衷時(shí)說(shuō)。
過(guò)去,科研人員需要通過(guò)標(biāo)記檢測(cè)技術(shù)和全基因組測(cè)序技術(shù)來(lái)開(kāi)展基因研究工作。由此導(dǎo)致的低效率和高成本,是客戶經(jīng)常向鄭洪坤抱怨的內(nèi)容。
有沒(méi)有可能,通過(guò)大數(shù)據(jù)分析,選取一些有代表性的基因片段進(jìn)行檢測(cè)以達(dá)到全基因組測(cè)序的效果呢?帶著這樣的設(shè)想,鄭洪坤帶領(lǐng)團(tuán)隊(duì)開(kāi)始研發(fā)簡(jiǎn)化基因組檢測(cè)技術(shù)。
如何準(zhǔn)確篩選出基因組中的“關(guān)鍵少數(shù)”,無(wú)疑是整個(gè)研發(fā)過(guò)程中最重要的一環(huán)。“利用一些公開(kāi)物種的基因組序列信息,通過(guò)軟件預(yù)測(cè)其中的‘關(guān)鍵少數(shù)’并在篩選后進(jìn)行測(cè)序,我們研制出了SLAF簡(jiǎn)化基因檢測(cè)技術(shù)。利用該技術(shù)我國(guó)科研人員獲得了大量的原創(chuàng)性成果,其準(zhǔn)確性得到廣泛的認(rèn)可。”鄭洪坤介紹。
簡(jiǎn)化基因組檢測(cè)技術(shù)“療效”如何?鄭洪坤以人類的基因組為例說(shuō)道,人類的全基因組很大,包含了30億個(gè)堿基,采用他們研發(fā)的技術(shù),取其中1%的量就可以達(dá)到全基因組測(cè)序的效果,使成本大幅降低。
通過(guò)大幅減少測(cè)序工作量,提高研發(fā)效率、降低成本的SLAF簡(jiǎn)化基因檢測(cè)技術(shù)很快就得到了市場(chǎng)認(rèn)可。鄭洪坤介紹,目前百邁客已與中國(guó)科學(xué)院、中國(guó)農(nóng)科院、國(guó)家海洋研究所等500多家科研院所建立了長(zhǎng)期的合作關(guān)系。
面向未來(lái),搭建基因云平臺(tái)
大數(shù)據(jù)、云計(jì)算……這些時(shí)下的熱門技術(shù),一旦和基因研究相碰撞,會(huì)擦出怎樣的火花?對(duì)信息技術(shù)有著濃厚興趣的的鄭洪坤,一直有著將生物技術(shù)和信息技術(shù)深度結(jié)合的念頭。
“高考時(shí),我的第一志愿就是信息類專業(yè),后來(lái)被調(diào)劑到了生物信息工程專業(yè)。但無(wú)論是大學(xué)期間,還是工作后,我都沒(méi)有放下對(duì)計(jì)算機(jī)相關(guān)技術(shù)的鉆研。”鄭洪坤說(shuō)。
正是基于對(duì)信息技術(shù)的敏感,鄭洪坤意識(shí)到在龐大的基因數(shù)據(jù)庫(kù)里,潛藏著亟待深入挖掘的“富礦”。而在基因檢測(cè)領(lǐng)域,對(duì)海量數(shù)據(jù)的分析挖掘長(zhǎng)期以來(lái)都是一個(gè)薄弱環(huán)節(jié)。
高通量基因測(cè)序得到的結(jié)果是一堆龐大數(shù)據(jù),而這些數(shù)據(jù)到底意味著什么,大家其實(shí)并不明白。“因此,我們希望能搭建一個(gè)供科研人員分析、學(xué)習(xí)、分享的基因大數(shù)據(jù)云計(jì)算平臺(tái),把數(shù)據(jù)里的信息提煉成有用的‘知識(shí)’。”鄭洪坤指出,所謂“知識(shí)”,是指基因片段的作用機(jī)制,比如某個(gè)基因會(huì)導(dǎo)致某種疾病等。
說(shuō)干就干。鄭洪坤帶領(lǐng)團(tuán)隊(duì),用3年的時(shí)間,完成了生物云平臺(tái)的搭建,為醫(yī)學(xué)健康、農(nóng)業(yè)育種等領(lǐng)域的兩萬(wàn)名用戶,提供了基因數(shù)據(jù)存儲(chǔ)、分析、共享等服務(wù)。
搭建生物云平臺(tái),涉及大數(shù)據(jù)存儲(chǔ)、云計(jì)算、生物信息、軟件開(kāi)發(fā)等多個(gè)交叉學(xué)科,研發(fā)難度之大可想而知。鄭洪坤介紹,在他們構(gòu)建的生物云平臺(tái)的生態(tài)圈里,不僅科研人員能夠進(jìn)行基因數(shù)據(jù)的分析存儲(chǔ),從事生物信息技術(shù)的研發(fā)人員也可以把自己開(kāi)發(fā)的應(yīng)用軟件上傳到云端,而用戶數(shù)據(jù)的不斷累計(jì),也讓云計(jì)算平臺(tái)具有了自我迭代的能力。
“未來(lái),我們期待通過(guò)云平臺(tái),發(fā)現(xiàn)更多基因數(shù)據(jù)背后的‘知識(shí)’,讓基因技術(shù)更好地造福人類。”鄭洪坤由衷地說(shuō)道。