(文章來(lái)源:比特網(wǎng))
持續(xù)數(shù)月的新冠疫情一路肆虐、席卷全球,世界各地的科研人員都在為此奮戰(zhàn),希望通過(guò)最先進(jìn)的技術(shù)逐步揭開(kāi)新冠病毒的神秘面紗。近日,微軟亞洲研究院的研究人員基于在計(jì)算生物學(xué)、數(shù)據(jù)分析等領(lǐng)域的專業(yè)知識(shí)和研究經(jīng)驗(yàn),構(gòu)建了新冠數(shù)據(jù)分析網(wǎng)站COVID?Insights?(covid.msra.cn),該網(wǎng)站以學(xué)術(shù)研究和科普為目的,希望透過(guò)數(shù)字表面,更深入、多角度地分析COVID-19(2019冠狀病毒病)相關(guān)數(shù)據(jù)。
COVID?Insights網(wǎng)站主要包含感染數(shù)據(jù)分析、基因組和蛋白質(zhì)結(jié)構(gòu)、研究趨勢(shì)三大板塊,以可視化和互動(dòng)的方式直觀展現(xiàn)了疫情在不同國(guó)家和地區(qū)的傳播特性、引起疫情的病毒SARS-CoV-2的病毒學(xué)分析結(jié)果,以及全球最新的相關(guān)研究熱點(diǎn)。網(wǎng)站使用的所有數(shù)據(jù)均來(lái)自約翰霍普金斯大學(xué)、美國(guó)疾病控制與預(yù)防中心、GISAID等機(jī)構(gòu)的官方發(fā)布。基于這些公開(kāi)數(shù)據(jù),研究員們利用先進(jìn)的技術(shù)挖掘疫情數(shù)據(jù)背后隱藏的規(guī)律和洞察,為進(jìn)一步拓展對(duì)疫情的思考提供有價(jià)值的參考。
感染數(shù)據(jù)分析頁(yè)面通過(guò)對(duì)COVID-19數(shù)據(jù)的深度分析,呈現(xiàn)了跨國(guó)家和地區(qū)間傳播動(dòng)態(tài)比較。例如,通過(guò)分析我們發(fā)現(xiàn)德國(guó)從2月27日到3月14日的數(shù)據(jù)趨勢(shì)曲線與韓國(guó)從2月18日到3月5日的數(shù)據(jù)趨勢(shì)曲線很相近。因此韓國(guó)在3月5日以后開(kāi)展的各項(xiàng)疾控措施對(duì)3月中旬的德國(guó)來(lái)說(shuō)可能具有更為精準(zhǔn)的借鑒作用。
在這里,研究員們將COVID-19時(shí)間序列數(shù)據(jù)在低維歐式空間中進(jìn)行表示。對(duì)于一個(gè)給定的地區(qū)和時(shí)間片段,在這個(gè)空間中使用一個(gè)向量來(lái)反映其數(shù)據(jù)的趨勢(shì)。這樣就可以有效地發(fā)現(xiàn)哪些國(guó)家或地區(qū)、在哪些時(shí)間段的數(shù)據(jù)發(fā)展相似,找到合適的參考對(duì)象。
此外,該頁(yè)面基于四個(gè)不同地區(qū)的開(kāi)源數(shù)據(jù),為與感染相關(guān)的高風(fēng)險(xiǎn)活動(dòng)提供了一個(gè)統(tǒng)一的數(shù)據(jù)分析視角,方便對(duì)比地區(qū)間傳播數(shù)據(jù)的差異。例如,對(duì)法國(guó)來(lái)說(shuō),許多感染是通過(guò)“群眾聚集”發(fā)生的,而對(duì)新加坡來(lái)說(shuō),“國(guó)際旅行”是造成感染的最主要原因。
由于各地區(qū)的數(shù)據(jù)差異較大,有效信息或展現(xiàn)在不同的尺度上,或隱含在冗長(zhǎng)的病例通報(bào)中。研究員們將非結(jié)構(gòu)化的病例描述映射到統(tǒng)一的高風(fēng)險(xiǎn)活動(dòng)分布中進(jìn)行可視化,很好地解決了這個(gè)挑戰(zhàn)。對(duì)于高風(fēng)險(xiǎn)活動(dòng)的歸因分析,尤其是不同地區(qū)的不同歸因結(jié)果,可以為預(yù)防感染提供個(gè)性化參考。
COVID?Insights網(wǎng)站的“基因組和蛋白質(zhì)結(jié)構(gòu)”頁(yè)面展示了SARS-CoV-2的最新病毒學(xué)分析結(jié)果。新型冠狀病毒SARS-CoV-2演變至今,已發(fā)生很多處基因組變異,用戶可以通過(guò)交互探究病毒序列中發(fā)生變異的氨基酸及其位置,該變異發(fā)生的地理位置以及相應(yīng)的蛋白質(zhì)結(jié)構(gòu)。
研究員們從全球流感序列數(shù)據(jù)庫(kù)?GISAID?上下載新型冠狀病毒?SARS-CoV-2?基因組數(shù)據(jù)。然后,以病毒株Wuhan-Hu-1(GenBank?MN908947.3)作為參考序列,確定出各病毒序列中發(fā)生變異的氨基酸及其位置。對(duì)每一個(gè)存在變異的位置,研究員們通過(guò)計(jì)算熵顯示該位置氨基酸的多樣性及其在各地區(qū)的分布和時(shí)間線。
研究員們還將SARS-CoV-2病毒核酸序列轉(zhuǎn)化成蛋白質(zhì)序列,并將整個(gè)序列按照不同區(qū)域進(jìn)行分割,最終呈現(xiàn)出蛋白質(zhì)三維結(jié)構(gòu)。此外,用戶還可以看到SARS-CoV-2與包括SARS、MERS在內(nèi)的四種冠狀病毒的基因組比較分析,了解它們之間的異同。
在研究趨勢(shì)頁(yè)面,用戶可以通過(guò)可視化信息了解當(dāng)前新冠相關(guān)主題的熱門(mén)論文和主題變化趨勢(shì)。研究員們通過(guò)自動(dòng)聚類技術(shù),對(duì)于熱詞進(jìn)行聚合形成詞云,并且通過(guò)每周更新展示時(shí)間粒度上的變化趨勢(shì),希望可以給研究者們帶來(lái)更多啟示。
我們希望COVID?Insights網(wǎng)站能夠通過(guò)深度分析和挖掘疫情數(shù)據(jù)背后的洞察,為用戶科學(xué)地理解疫情數(shù)據(jù)提供參考。未來(lái),我們會(huì)通過(guò)該網(wǎng)站分享更多關(guān)于新冠病毒數(shù)據(jù)的深度洞察,為抗擊疫情提供持續(xù)的支持。與此同時(shí),我們也希望更多的AI研究者、數(shù)據(jù)科學(xué)家、計(jì)算生物學(xué)家加入到研究行列中來(lái),共同加速科研進(jìn)展,早日戰(zhàn)勝疫情。
(責(zé)任編輯:fqj)
-
微軟
+關(guān)注
關(guān)注
4文章
6630瀏覽量
104479 -
網(wǎng)站
+關(guān)注
關(guān)注
2文章
259瀏覽量
23241
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論