梅斯医学MedSci APP
医路相伴,成就大医

Arxiv:21个国家377个全基因组分析:探究新冠病毒起源,重大突变及进化关系

Tags: 全基因组分析   新冠病毒      作者:新智元 更新:2020-03-20

西安电子科技大学教授李雁妮等人和北京大学讲席教授刘兵发表了一篇关于新冠病毒全基因序列相似性的研究,题为“Similarities and Evolutionary Relationships of COVID-19 and Related Viruses”(COVID-19与相关病毒的相似性及其进化关系)。

21个国家377个全基因组分析:探究新冠病毒起源,重大突变及进化关系

论文地址:https://arxiv.org/pdf/2003.05580.pdf

研究人员通过对377个COVID-19新冠病毒及相关病毒的全基因序列进行了相似性及进化关系的计算分析,得到了一些潜在有趣的结果,可能会对相关领域专家找到病毒的源头、有效的检测试剂、疫苗及治疗药物的研发等有所帮助。下面为大家解读这篇研究。

摘要:

我们收集了377个公开发布的COVID-19病毒、先前已知的4种引起流感的冠状病毒HCov-229E、HCov-OC43、HCov-NL63和HCov-HKU1以及致命的致病性P3/P4病毒:SARS、MERS、Victoria、Lassa、Yamagata、埃博拉和登革热的全基因组序列。

本文作者利用他们最新研发的大序列数据分析工具I-MLCS、现有的MEGA 6.0系统和聚类算法,对来自21个不同国家的COVID-19病毒序列以及COVID-19病毒与其相关病毒的相似性和进化关系进行了计算分析。

21个国家377个全基因组分析:探究新冠病毒起源,重大突变及进化关系

图1.数据来源和采样/测序时间。

表1.不同月份的COVID-19病毒序列之间的平均相似度

21个国家377个全基因组分析:探究新冠病毒起源,重大突变及进化关系

相似性分析表明,两株以菊头蝠为宿主的COVID-19病毒(TG13和 RaTG13)与以人为宿主的COVID-19病毒有很高的相似度,但以穿山甲为宿主的病毒与以人为宿主的病毒平均相似度更高一些。进化关系分析表明:来自5个国家所测序的约13株COVID-19病毒很可能与第一代COVID-19病毒及其起源有关,或可能引导研究人员找到该病毒源头。

刘兵教授还透露,他们对表1中的相似性进行了统计测试,发现病毒在过去四个月中经历了具有统计意义的显著突变,这使得开发好的疫苗更加困难。

介绍:

自2019年12月以来,严重的新冠病毒COVID-19所引发的肺炎疫情从武汉迅速蔓延到全国,据中国CDC(中国疾病控制中心)报告:截止2020.3.8号,中国已累计确诊病人80868人,累计死亡病例3101人,更为严重的是,目前该疫情已在世界100多个国家或地区爆发蔓延。因此,有效地控制与扼制新冠病毒COVID-19疫情、治愈感染病人、免受由疫情所带来的巨大经济损失是当前世界面临的最紧迫与重要问题。

本文报告了作者对新冠病毒COVID-19全基因序列(以下简称序列)本身,以及COVID-19病毒序列与其它相关病毒序列之间的相似性与进化关系的计算及分析。

由于新冠病毒COVID-19是一种新型病毒,对它的研究才刚刚开始。不同于现有的研究,本文工作是一种大规模的新冠病毒COVID-19及相关病毒的全基因序列的比较计算研究,共涉及了来自21个国家的377个COVID-19及相关病毒的全基因序列。更重要的是,作者首次对这377个病毒的全基因序列进行了相似性及同源/进化分析。正如本文将要呈现的,这种大规模的对COVID-19及相关病毒的全基因序列的深度计算与挖掘,将揭示COVID-19及相关病毒间的一些重要关系与发现。

本文工作中,作者共收集了公开发布的215个COVID-19全基因序列(包括:宿主为人的194个序列、宿主为菊头蝠的13个序列、宿主为穿山甲的6个序列,以及宿主为环境的2个序列),已有的四种流感冠状病毒HCov-229E (3个) , HCov-OC43 (78个), HCov-NL63 (16个) 和 HCov-HKU1 (4个), 以及7种高致病致命的7种 P3/P4病毒, SARS (11个)、MERS (11个)、Victoria (5个)、 Lassa (6个)、Yamagata (5个)、Ebola (11个)和Dengue (12个),以上序列总计377个。本文的序列数据来源于以下数据库:GenBank or NCBI[7] (National Center for Biotechnology Information), GISAID[8] (Global Initiative on Sharing All Influenza Data), CDC[9](Center for Disease Control and Prevention)等,序列的平均长度为3万左右。

由于新冠病毒COVID-19肺炎的发病机理、病毒检测、疫苗与治疗药物的研发等,在很大程度上决取于对COVID-19全基因序列的分析研究,因此,本文研究将会为生物、医疗与健康领域的相关专家们,在追溯COVID-19病毒的起源、传播路径、研发有效的检测试剂、疫苗与治疗药物,以及有效地控制与扼制该疫情提供有价值的决策信息/数据支持。值得注意的是,这项工作是COVID-19全基因序列及相关病毒序列的一个大规模计算与挖掘研究,我们目的并非为了获得广泛的生物学解释,除了一些最低限度的,而是拟从大序列数据的比对计算中,分析与挖掘出可能有价值的信息。

21个国家377个全基因组分析:探究新冠病毒起源,重大突变及进化关系

图2.四种流感冠状病毒与以人为宿主的COVID-19之间的平均相似度。

21个国家377个全基因组分析:探究新冠病毒起源,重大突变及进化关系

图3. COVID-19与七种致命的致病性P3 / P4病毒序列之间的平均相似度。

21个国家377个全基因组分析:探究新冠病毒起源,重大突变及进化关系

图4.不同宿主中COVID-19病毒序列之间的平均相似度。

这项工作的核心发现(所有的分析都只使用完整的基因组序列):

1. 通过对过去4个月来(2019.12~2020.3 )所收集的194个以人为宿主的新冠病毒COVID-19全基因序列的相似性分析结果表明:序列间具有平均高达99.8%的相似度;采用MEGA 6.0对它们的同源/进化关系分析表明:来自不同国家的新冠病毒COVID-19已发生了一定程度的变异;

2. COVID-19与已知的四种流感冠状病毒(HCov-229E, HCov-OC43, HCov-NL63和HCov-HKU1)的相似度在55.6%~56.1%之间,它表明:新冠病毒COVID-19与已知的四种流感冠状病毒不同;

3. 以人为宿主的新冠病毒COVID-19与高致病与致命的P3/P4病毒中的SARS和MERS最像,与SARS的平均相似度达到82.6%,并且MEGA 6.0计算结果报告:COVID-19与SARS同源;

4. 以人为宿主的新冠病毒COVID-19序列与宿主为穿山甲的COVID-19序列相似度高于以宿主为菊头蝠的COVID-19序列相似度,其平均相似度差值达13%~20%。但有两株以宿主为菊头蝠的COVID-19序列(TG13和RaTG13)除外,病毒株TG13和RaTG13与人为宿主的新冠病毒COVID-19序列的相似度高达95.9%;

5. 宿主为人的新冠病毒COVID-19序列与宿主为环境的COVID-19序列的相似度高达99.7%,且两者为同源关系;

6. 采用MEGA 6.0对来自21个国家的共计194个宿主为人的新冠病毒COVID-19序列同源进化关系的计算结果表明:来自5个国家的13株病毒序列,即:中国(China 7/85)、泰国(Thailand  2/2)、日本(Japan 2/9)、美国(USA  1/32)和韩国(South Korea 1/9)极有可能相关于,或导致我们找到第一代病毒或病毒源。值得注意的是,由于存在世界范围内的旅行,本文决没有上述来自5个国家的13株病毒序列一定/可能是病毒源国之意,仅表明,这13株病毒序列为我们可能追溯查找到第一代病毒或病毒源提供了必要有价值的线索。

21个国家377个全基因组分析:探究新冠病毒起源,重大突变及进化关系

图5.第一代COVID-19毒株的国家、序列号和测序日期。

21个国家377个全基因组分析:探究新冠病毒起源,重大突变及进化关系

图6.来自21个国家的21个COVID-19病毒株的两棵进化树(每个国家一个毒株)。

21个国家377个全基因组分析:探究新冠病毒起源,重大突变及进化关系

图7.图5中21个COVID-19毒株的进化树。

21个国家377个全基因组分析:探究新冠病毒起源,重大突变及进化关系

图8.15种病毒的相似度矩阵。

21个国家377个全基因组分析:探究新冠病毒起源,重大突变及进化关系
21个国家377个全基因组分析:探究新冠病毒起源,重大突变及进化关系

图9. 15种病毒的全连接加权图和聚类结果。

21个国家377个全基因组分析:探究新冠病毒起源,重大突变及进化关系
21个国家377个全基因组分析:探究新冠病毒起源,重大突变及进化关系

图10.两个病毒簇的两棵进化树。

“COVID-19与相关病毒的相似性及其进化关系”研究作者简介

21个国家377个全基因组分析:探究新冠病毒起源,重大突变及进化关系

李雁妮,博士,教授,计算机科学与技术、软件工程学科博士/硕士生导师。分别于1981、2005和2013获西安电子科技大学计算机应用学士学位、软件工程硕士学位和计算机应用技术工学博士学位。2017年9月~12月在美国伊利诺伊大学芝加哥分校做高级研究访问学者;2019年4月~9月在加拿大尼皮辛大学做高级研究访问学者。目前主要研究领域为:大数据分析、机器学习与多目标优化等基础理论与应用。以第一作者撰写专著二部,其中,《C++程序设计语言》获国家“十.一五”规划教材、国家普通高等教育精品教材。近年来,在研究领域上以第一作者身份发表SCI/顶级会议论文20余篇,并主持或作为主要成员完成纵向/横向项目10余项。作为主要参加人,项目《复杂数据管理理论与关键技术》,获2019年陕西省教育厅科技进步一等奖,项目《非结构化数据管理与挖掘关键技术及应用》获2019年陕西省自然科学二等奖。

21个国家377个全基因组分析:探究新冠病毒起源,重大突变及进化关系

刘兵(Bing Liu)现为北京大学的讲席教授(目前从伊利诺伊大学芝加哥分校(UIC)休假),为ACM Fellow、AAAI Fellow和IEEE Fellow。从爱丁堡大学获得人工智能专业博士学位,研究领域主要包括:终身机器学习、情感分析、数据挖掘、机器学习和自然语言处理等。在国际顶级会议/期刊发表了大量学术论文,撰写专著4部,Google Scholar Citation达60000以上。其中2篇论文获得KDD Test-of-Time奖, 1篇论文获WSDM Test-of-Time奖,  1篇论文获WSDM Test-of-Time荣誉奖(honorable mention)。他的开创性研究工作被媒体广泛报道,包括纽约时报的首页文章。获2018 ACM SIGKDD创新奖。 于2013-2017年担任ACM SIGKDD主席,并曾担任多个顶级数据挖掘会议的程序主席,包括KDD,ICDM,CIKM,WSDM,SDM和PAKDD。同时担任多个顶级期刊的副编辑,包括TKDE, TWEB, DMKD和TKDD,以及多个自然语言处理、人工智能、网络和数据挖掘会议的领域主席或高级程序委员会成员。

来源:新智元
版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。同时转载内容不代表本站立场。
在此留言
小提示:本篇资讯需要登录阅读,点击跳转登录

相关推荐

移动应用
medsci.cn © 2020