- 分子流行病学和分子进化流行病学
- 徐德忠
- 21791字
- 2021-12-18 02:48:27
第一节 分子流行病学和分子进化流行病学的定义
一、分子流行病学定义的演变和分子进化流行病学的产生背景及两者之间的联系
众所周知,任何理论常是符合客观规律的(包括现场和实验等)实践之总结、提炼、推理甚至某种预测,自然科学是这样,社会科学也如此。新的“分子进化流行病学”之创建亦遵循这一探寻真理的途径。
我们的实践主要是从流行病学宏观视角,重塑引起严重急性呼吸综合征(severe acute respiratory syndrome, SARS;传染性非典型性肺炎,非典)的病毒(SARS-CoV)之进化历程,结合流行病学分析,应用透过现象看本质的哲学原理,研究、阐明和确认非典流行终止后各国学者长期苦苦求索却未能发现的SARS、SARS-CoV真实起源与进化过程及其贮存宿主的状况。
非典流行主要从2002年11月中旬开始至次年7月上旬,此后仅有2003年12月至2004年1月的广州4例轻型小暴发和3起实验室感染;虽然时间不长,但危害极其严重,涉及我国及其周边甚至某些欧美国家的广大居民健康、日常生活、交通往来,乃至经济、政治等等,损失难以数计。这是21世纪初全人类的灾难!仅以发病和死亡数即可见其一斑:我国内地发病5 327例,死亡349例,还波及29个国家和地区,共发生8 098例,死亡774例;值得一提的是,其中包括奋不顾身战斗在防治病人一线的许多医务卫生人员及其家属,尤其是令人敬佩、无私奉献、专业超群的科学家Dr. Carlo Urbani,是判定SARS暴发的首位WHO官员,却不幸在岗位上受染而牺牲。面对这些,有良心的人们怎能不痛心不已;相关学者怎能不竭尽全力寻求防治良方和研究SARS-CoV起源及其贮存宿主,以防其再次降临!
在防控非典早期,我们受命先后赴中央军委(中央军事委员会)卫生部和国家原卫生部负责疫情分析、提出决策性建议;因此,逐渐掌握了国内外的疫情和流行过程,结合自身从事近40年流行病学教研和处置许多次疾病暴发(涉及部队、工厂、农村、社区、学校、幼儿园,甚至拘留所等)的实践,在央视上用通俗语言又按逻辑分析当时疫情及其趋势、采取居民能做到的关键措施,受到人民群众的欢迎。流行得到迅速控制后,又适时提醒广大观众千万不能掉以轻心,“今冬明春非典必将再次流行”(此句话在民间传播很广),应随时做好防治的准备。其实,稍有经验和知识的每一位流行病学工作者均会得出同样的结论:新发传染病不可能发生一次即戛然而止;呼吸道传染病可全年发病而在冬春季高发!
非常关心民众健康的党中央对此十分重视。2003年7月28日胡锦涛主席在全国防治非典工作会议上的讲话中明确指出:“人类传染病史告诉我们,任何重大的传染病,都不会在一次发作后就销声匿迹”。无疑,胡主席这段讲话充分代表了当时我国学术界普遍的观点。
然而,历史似乎故意戏弄了我们;也可能由于我们低估了这次非典流行和SARS-CoV来源的复杂性。自2003年7月以后,非典再未出现类似的流行,完全出乎流行病学家预料之外;也使我们非常震惊:非典违反了有史以来传染病的自然规律。因为我们牢记北京医科大学老师反复强调的揭示抗美援朝期间细菌战之流行病学策略:违反传染病的自然规律!故感到非典及其病毒的来源非同寻常,绝对超出学者按常规所能推测之外。
对非典流行过程的比较与分析,主要结果均指向同一个结论:非典流行违反了有史以来传染病流行的自然规律,不能排除非典及其病毒为非自然起源!简述几点:①国际上将流行分为:早(2002年11月16日至2003年1月31日)、中(2003年2月1日至2月21日)、晚(2003年2月22日至7月10日)3期。然而,三阶段流行具两个明显异常的特点:第一,传播极其迅速、路径十分清晰:早期局限于广东,中期立刻传至我国香港地区、继之国外,20天后即进入晚期,则传至京津、继之华北及更远;第二,不同地区、不同时间的病例分布、传播方式和临床表现有差异甚至反常,广东尤甚。②2003年年底~2004年年初广州暴发SARS病例的流行病学与临床特点和2002—2003年流行病例、2004年北京-安徽实验室感染者均截然不同;③作为“非自然或特定(一过性)传染源”——受染果子狸的分布非常奇特:由于流行期间,果子狸曾作为SARS的(一过性)“传染源(source of infection)”,故很多学者推测它即为SARS的贮存宿主(reservoir),可能为整个流行的传染来源;继后又以许多研究结果将其否定,故“果子狸不是SARS的贮存宿主”已为学界共识。随之研究者们则全心致力于中国、东南亚甚至其他洲的蝙蝠中寻找SARS-CoV的起源和贮存宿主。
在此应特别指出,我国“传染源”被严格定义为:携带并能将病原体排出体外使易感者受染的人和动物。故流行期间受染的果子狸表面上完全符合此定义。但实际上,从整个流行过程和携带SARS-CoV的果子狸分布来看,其和有史以来其他自然疫源性疾病或人畜共患病作为传染源的动物截然不同,即具本质区别。因为果子狸仅在非常特定的状态,即野生动物市场饲养中且某一时段内才出现携带SARS-CoV状态、才具传染源之作用。故为区别,我们暂称果子狸为SARS“非自然或特定传染源”;为在学术上加以规范,将其定义如下:非自然传染源(source of infection from non-nature,英文译文仅供参考,下同),又称特定传染源(the special source of infection),指经非自然处理、能一过性地携带夭折病毒(abortion-virus)并将其排出体外使易感者受染的人和动物。当然,若将果子狸作为SARS-CoV传播媒介动物,应该毫无疑问,但其绝不是贮存宿主。在此,为明确定位果子狸在SARS流行中的作用,又易为读者理解,故特别指出,对传染病流行病学理论的表述,我国和西方有许多不同之处。如西方将传染源(source of infection)和贮存宿主(reservoir)混用,认为两者作用相同、定义一致,且更常用“reservoir”表述传染源,而我国将这两个名词做了明确区别,即贮存宿主为疫区内能世代循环地保存该传染病病原体并维持传播与流行的动物和人。按此,贮存宿主为传染源,而传染源并非一定为贮存宿主;传染源常指个体,而贮存宿主,常指群体。可见,我国传染病流行病学理论可能优于西方(有些实践事例,恕暂不细述)。
对于作为SARS“非自然或特定传染源”之果子狸,我们又进行深层次的思考:①为何和其他自然疫源性疾病或人畜共患病不同,作为特定传染源时的动物果子狸不是出于荒地、山林和农田等自然疫源地?②携带SARS-CoV状态、具传染源作用之果子狸的来源均为动物市场,却非长期且群居的饲养农场?(有人指出这是因市场动物种类多且笼内密度高,但深思之,此理由难以完全解释。)③为何发现受染果子狸的动物市场仅为两个(深圳和广州新源市场)?我国流行病学家Kan B等2005年发表的结果更令人惊异:从新源市场91只果子狸、15只貉所采标本的SARS-CoV均阳性;24份外环境标本中22份阳性;而供应新源市场的12个其他省份25个饲养场1 107只果子狸标本均阴性,显示如此阳、阴分明的特征!④为何动物市场携带SARS-CoV之果子狸仅在2002—2004年发现?而广州地区吃食果子狸的习惯在SARS流行前10多年业已养成;且发病分布并不与吃食果子狸习惯相符(见下一点)。⑤为何携带SARS-CoV果子狸之深圳和广州两个动物市场的位置和上段内容第1点中流行早、中期病例均在广州西面和南面的分布十分吻合(请见参考文献3之图1)?可见,曾在一两年间误认为是SARS贮存宿主的果子狸,竟在流行病学上是如此这般特别!如此多的“特殊”“为何”“是否”等,应该令我们不得不考虑到如下可能:特定果子狸之受染很可能非自然之举!这亦可解释在流行病学与临床上SARS和既往新发传染病尤其是自然疫源性疾病或人畜共患病有着异乎寻常的不同之处。
因此,学者们不得不考虑:SARS-CoV可能为非自然地引入和非自然地起源。Xu RH等2004年报告:流行病学研究发现,广西的指示病例是位野生动物贸易商司机,他可将广西等其他省份甚至东南亚某国的野生动物供应到广东动物市场。由此可见,广东动物市场来往的渠道十分杂乱,甚至可以直通国外,是否可为“SARS-CoV非自然地引入”提供了可乘之机?
但是,在高科技发展的今天,仅凭流行病学与临床的证据肯定说服不了人们,更谈不上让学术界相信;虽然经过SARS流行,尤其是在央视定点新闻节目中对疫情分析与预测以及关键措施的解释,公众对流行病学的认识增加了,流行病学的学术地位也有所提高;但对非典流行病学研究“为非自然起源”的结果无论如何不可能接受:因为,这是开天辟地第一次!这是超出全球除少数知情者外包括学者在内的任何人之预料和想象!所以,我们必须寻找高科技和微观之确切证据。于是,查阅了大量的分子流行病学、分子病毒学、分子生物学、分子进化和系统发育学等有关文献,多遍精读甚至一字一句翻译了重要的英文文章。虽苦苦寻找,日夜思考,做了大量笔记,但始终未找到关键证据,更不必说证据链,只能望洋兴叹。
可能功夫不负苦心人,感动了老天。由于日夜苦思、吃饭睡眠也不例外,做梦的情景几乎均是:在计算机上查找文献,但总是找不到;有天深夜脑海里冥冥之中突然冒出一篇论文上的一个进化图,朦胧中感到此图有问题,可能包含解决非典起源的关键。一早起来即在电脑上打开原文仔细一看,眼前一亮:此论文(参考文献2)非典病毒的分子系统发育树图确实存在着正常病毒进化不能解释之处,但结合丰富的流行病学知识即可发现:其进化不正常之处正反映了SARS-CoV之不寻常起源。然而,对此文此图我细读细究多遍,为何一直“熟视无睹”呢?可能是功夫不够、不到“火候”?不过无论如何,终于找到了打开“SARS-CoV起源”奥秘之钥匙。当然,我们首先要感谢这篇论文的作者们,他们均是SARS-CoV分子病毒学和分子进化研究的权威专家,进行了十分先进、非常认真、极其细致的工作,作出了辉煌的业绩,就是这篇伟大的作品为我们挖掘“SARS-CoV起源”提供了丰富的矿藏;也由于此图“里程碑式”的重要性,故我们已多次引用,借撰写本书的机会,向作者们致以崇高敬意和衷心感谢!他们论文主要目的为两点:①2003年年底~2004年年初广州暴发是有别于2002年11月16日至2003年7月10日流行的独立事件;②寻找SARS-CoV内和跨种传播相关的突变热点。为此,作者将91条病人(HP)与5条果子狸(PC)SARS-CoV序列的全部“单核苷酸变异(single nucleotide variation, SNV)”和缺失重塑了无根系统发育树。
上述作者明确区分流行的4个时期:2002年11月至2003年7月的早、中、晚期和2003年年底~2004年年初广州暴发;将各期病人、果子狸病毒株分别列入,又对病人、果子狸病毒株聚类分别加小标题;病毒株序列之间的距离代表了基因型差异的程度;特别画出方框,其中标明发生在两组基因序列中单核苷酸(SNVs)同义和非同义变异的总数以及两采样组之间核苷酸差异(D)之平均数。论文中,作者对这些数据与结果,使用当时先进的多种方法检验证明其可靠、具很高科学价值。从此系统发育树,我们不难发现,自流行开始至终结的4个时期内,各时期SARS-CoV之间的亲缘关系和进化顺序为:2002—2003年流行晚期→流行中期→流行早期→2003年年底~2004年年初广州暴发。然而按照生物进化理论,SARSCoV若为自然发生的正常病毒,其亲缘关系和进化顺序必然为:2002—2003年流行早期→流行中期→流行晚期→2003年年底~2004年年初广州暴发。但在实际上,这次SARS流行中病毒进化的客观状况,正如前述权威专家重塑的这次流行SARS-CoV系统发育树所描述的、非常可信的结果是:与SARS-CoV若为自然发生的正常病毒之进化顺序却正好相反;即为我深夜朦胧中隐约感到之事件。我们将此类现象称之为“逆向进化(reverse evolution)”;因此,至少不能排除SARS-CoV在流行期间发生了逆向进化!
后来,我们查阅了许多有关SARS-CoV分子进化与系统发育研究文献,其结果均和前述SONG H等的系统发育树(参考文献2)有同样趋势;而且发现Janies D等2008年重塑的几种系统发育树颇具学术价值,因为他们不仅标本分批次、数量大、包括含全基因组或部分基因组,分不同时期等,而且还包括除果子狸以外其他动物,尤其后来曾一度被误认为贮存宿主的蝙蝠,包括其他冠状病毒;尤其可贵的是,特别注明了SARS-CoV基因组内“特征性29-nt序列(见下)”等遗传标记。
对于“逆向进化”,我们开始定为“返祖”现象,但考虑到其学术涵盖面很广,而且在临床或基础学科运用较多;就生物进化而言,应暂称之为“逆向进化”;按哲学观点,任何事物皆具两面性(一分为二),因此“进化”也应如此:既有顺向进化,也应有“逆向进化”。为使其具确切的学术价值,即广泛查阅文献。惊奇地发现,早有学者提出“逆向进化”,并定义为“再取得祖先状态”(Teot ó nio H,2001)或更具体些为“相同特征的分枝群体,经包括适应在内的方式,再获得祖先群体的特征”(Bull JJ,1985)。
事实上,逆向进化在生物界、生物进化中随处可见,但是除少数涉及人类健康或生活的事件外,大多数不易引起人们甚至科学家的注意。可能由于条件受限等因素,目前在文献中多见的是对逆向进化的实验研究,尤其是Desai MM 2009年、Teot ó nio H等同年对微生物、原生动物和昆虫的研究。虽然和人类生存环境密切相关的生物逆向进化研究较少,但也有Grant BS等2004年、Saenko SV等2012年长期广泛研究的经典实例:19世纪后半叶欧美工业化空气污染及其治理引起的胡椒蛾桦尺蠖(peppered moth, biston betularia),由淡色变黑又逐渐变回的逆向进化。
我们可能有理由认为,逆向进化和顺向进化(forward evolution)共同形成了生物的进化,即生物进化过程既包括顺向进化,也包括逆向进化(实际上,达尔文在名著《物种起源》中已有类似的描述)。若仅有顺向进化,生物进化不可能继续,可能所有生物均将灭种:因为地球和宇宙不断运动着、变化着,故生物所处的环境十分复杂多变,加之人类社会的各种活动,使不同生物随时随地面临或大或小甚至灭顶之灾,因而生物必须进行包括逆向进化在内的改变,才得以生存。我国中医学的精髓为阴阳五行;其认为,物质世界包括人类均是阴阳二气的相互作用下发展和变化,二者既相互对立又相互统一,而人体的健康和疾病、人群中发病和流行无不与之相关。可见,逆向进化不仅在自然界可见、在实验室进行研究,而且其规律均符合哲学和医学理论。遗憾的是,目前国际上除某些抗药菌种的试验外,似尚未全面地将“逆向进化”理论用于人类疾病的发病和防控研究。
很有意思的是,我们却在一些有关病毒的论文中发现“逆向进化”的苗头。如在HIV-1进化的自然史研究中,虽然作者未直接用“reversion evolution”,但在表述HIV-1 evolution研究结果时,选择了“retrieve”“revert”,甚至“evolves toward ancestral states”“frequent reversion”等这些词或句。可能是作者认为其尚未达到“reversion evolution”之程度,或作者尚未意识到“逆向进化”。由于本书篇幅所限,在此不详述,有兴趣者可参考Herbeck JT等2011年、Herbeck JT等2006年和Abecasis AB等2009年发表的文献。
在此基础上我们联想,既然SARS-CoV基因组单核苷酸(SNVs)变异的系统发育树反映其亲缘关系和“逆向进化”,从遗传的多样性、复杂性考虑:还应有SARS-CoV其他的遗传标志之“逆向进化”。我们在研究有关SARS-CoV受体结合位点重要氨基酸(AA)的文献时发现,Vega VB等2003年、Li F等2005年、Wu K等2012年、Holmes KV 2005年、Qu XX等2005年、Li F 2008年等报告普遍认为,和SARS-CoV传播力密切相关的、与人或果子狸受体血管紧张素转换酶2(angiotensin-converting enzyme2,ACE2)之结合位点,可能为基因S510-1 318位点。其编码的AA中,487、479位则尤为重要,应用免疫试验、嵌合ACE2、X射线晶体学,甚至细胞培养等实验手段进行验证并做了确认。更有权威在国际上极具影响力的杂志上,非常精练而又具体指出487、479两位AA之作用:由于后者变异,极大影响ACE2受体界面之结合功能,前后的亲和力可差1 000倍以上。若如此,可能使2003年年底~2004年年初广州暴发病人株和狸株结合的亲和力可与2002年年底~2003年中期的差1 000倍以上;即可解释流行病学和临床特点:广州暴发病人症状轻、均痊愈,传播力弱、无一续发病例。
当时学术界已公认,蝙蝠不是SARS-CoV的贮存宿主,蝠所携带的病毒亦不是SARSCoV而是SARS样冠状病毒(SARS-like coronaviruses, SARSL CoV)(SARSL CoV尚可称SL CoV、SL-CoV等,若为蝠携带,也可谓Bt-SLCoV、Bt-SL-CoV、Bt-SLCoV等),即Bt-SLCoV不是SARS-CoV的直接祖先,仅为隔数代甚至数十代的共同祖先,尤其Li W等2005年、Yip CW等2009年、Lau SK等2005年、Tang XC等2006年、Hon CC等2008年、Lau SK等2010年、Gouilh MA等2011年和Wang LF等2006年等学者提到的Rp3株,为追寻SARS-CoV起源和直接祖先提供了基础资料。
为研究之便,我们在学术上,将从未揭示、应贮存在某个实验室内(见下)的“SARSCoV直接祖先”称为SARS-CoV之“亲代1”;“SARS-CoV直接祖先之亲本或亲本之亲本、亲本的亲本之亲本、……”,也即为“SARS-CoV直接祖先”数代直至几十代甚至更多代亲本,皆统称之为“亲代2”;“蝠所携带的Bt-SLCoV、即SARS-CoV的共同祖先,如Rp3株”称为SARS-CoV之“亲代3”。
我们将许多文献内SARS-CoV和Bt-SLCoV病毒株及其宿主种类、受染时期,尤其487、479两位AA的变异状况进行整理、比较、分析和综合后,SARS-CoV和Bt-SLCoV病毒株也确实经历了“逆向进化”,且较基因组之系统发育树的更具体、时期性更清晰;更令人惊奇者,2003年年底至2004年年初广州暴发病人携带的SARS-CoV株487、479两位AA已相当接近(经逆向进化回归)于其传染来源动物果子狸之毒株(表1-1)!这两位AA从早期祖先Bt-SLCoV开始,直至广州暴发止,其变异进程很可能经过了如下非自然进化与不完全的历史回复(逆向进化):蝠株(亲代3)→?(亲代2)→?(亲代1)→02~03果子狸株→02~03人株→03~04果子狸株→03~04人株。当然也可能是其他进化过程,可能更复杂曲折;但无疑,在其进化史中必然存在着非自然进化与逆向进化。
人和果子狸SARS-CoV的主要基因为 ORF1a、 ORF1b、 S、 E、 M和 N。此外,其具SARSCoV独特的附属基因(the accessory genes unique to the SARSCoV),即可读框(open reading frame 8,ORF8)。后者含特征性29-nt序列:CCTACTGGTTACCAACCTGAATGGAATAT(nt.27869-27897)。早在2003年有些学者发现,除从受染果子狸和2002—2003年流行早期极少数病人以及2003年年底~2004年年初广州暴发病人分离的SARS-CoV外,ORF8特征性29-nt在大部分SARS病例中缺失。故将此29-nt缺失,谓特征性29-nt缺失(characteristic 29-nucleotide deletion,29-nt缺失)。ORF8特征 性29-nt对SARS-CoV非常重要,Wu D等2005年、Yip CW等2009年、Lau SK等2005年、Janies D等2008年、Qin E等2003年、Oostra M等2007年、Chen CY等2007年和Keng CT等2006年的研究证实其可能和病毒复制、致病性与跨种传播等密切相关。
表1-1 SARS-CoV或Bt-SLCoVS1区487、479位 aAA和特征性29-nt在不同宿主和时期的变异或进化
aAA:氨基酸;S(丝氨酸,serine)、V(缬氨酸,valine)、R(精氨酸,arginine)、K(赖氨酸,lysine)、N(天冬酰胺,asparagine)、T(苏氨酸,threonine)。
b:?:携带SARS样冠状病毒和/或SARS-CoV直接祖先的未知宿主及其年代、或其AA、或其特征性29-nt。
c:02~03、03~04分别指2002—2003年、2003—2004年。
其实,这种分布之特殊性,在流行早期即引起国外知名学者的关注,认为29-nt缺失与否关系到SARS-CoV从动物至人类的适应性[Enserink M. Science. 2003,300(5624):1351.]。无疑,此种思路非常正确;然而,美中不足之处是未深入研究下去,考察这种“动物至人类的适应性”的来龙去脉(可能当时也无法“考察”)。当我们深入探寻特征性29-nt进化历史时,很快就找到了Enserink M所思考问题之答案。
因为在文献中我们发现了“特征性29-nt序列”两种变化,可以作为上述论文作者——Enserink M推测的证据:第一,Bt-SLCoV中同样存在ORF8特征性29-nt序列,CCAATACATTACTATTCGGACTGGTTTAT(nt.27866-27894),且此序列的特点为:①仅在蝠内,为其特有。②系统发育学分析,和宿主蝠联系紧密。③和上述人与狸中29-nt序列相比,核苷酸位点提前3位,是直系同源基因位置关系(orthologous genomic position),有12个nt呈多态性,我们在学术上简称其为“原29-nt”;而将上述特征性29-nt序列(nt.27869-27897),称为“变29-nt”。变29-nt有以下特征:①为“原29-nt”之后代;②又易缺失(见下,可能因不适应新宿主);③甚至存在和宿主种类之相关性。变29-nt与宿主种类的相关性使得SARS-CoV在人与果子狸或其他食肉目动物之间表现出多种复杂的病毒-宿主转移过程(有的呈统计学显著性);故谓“变”较合适。第二,在2002—2003年流行早、中、晚期内,仅在最早发病的数例(可能5例)病毒株中存在“变29-nt”外,绝大部分毒株的特征性29-nt序列均缺失,故我们描述时称“特征性29-nt缺失”或“29-nt缺失”。
比较和综合分析之后,结果符合我们的预测:如同上述487,479两位AA, ORF8特征性29-nt在SARS-CoV进化历程中,有十分类似的“逆向进化”(见表1-1):果子狸SARS-CoV中,均为“变29-nt”,但在人群流行中,如上所述:绝大部分SARS病例的病毒均为“29-nt缺失”;而在广州暴发病例毒株中,却又现“变29-nt”。
在此,若结合流行病学、传染病学和分子进化的特征进行综合分析,又将揭示SARS和SARS-CoV进化中的一个十分重要之规律与两者之间的紧密关系:携带“29-nt缺失”SARSCoV的病人病情重、传播力强,对人群(体)适应较好,故流行中大部分或绝大部分病人均属于此类型;相反,携带“变29-nt”SARS-CoV的病人病情轻、传播力弱,对人群(体)适应性差甚至不适应,故仅有极早期和流行终止前极少数这类病人。如这种仅发生在1年多时间中病原体-宿主关系的急速而剧烈变化过程,在人类传染病流行史上绝无仅有!从这个视角,又强有力地证实SARS和SARS-CoV为非自然起源!
应该指出,我们还发现SARS-CoV的其他一些基因标志同样存在“逆向进化”,在此不再细述;而且可以深信,其他学者也会有类似的结果。
表1-1的数据,除了支持蝠不是SARS-CoV的贮存宿主、Bt-SLCoV也非其直接祖先外,似还可能作出一个新的推断:果子狸SARS-CoV可能和SARS-CoV的直接祖先很接近,甚至可能就是SARS-CoV的直接祖先,因为人SARS-CoV逆向进化之终点无论是整个基因组还是其重要的标志序列均和果子狸SARS-CoV极为类似;或者两者之间的亲缘关系极为接近。当然,即使如此,可肯定:果子狸SARS-CoV或SARS-CoV直接祖先并不能长期适应果子狸或曾为携带者的其他动物。因为,无论是SARS-CoV或狸SARS-CoV均非自然起源;故自然界绝对不再存在SARS-CoV。SARS-CoV直接祖先必定存在无疑,但却不在自然界中,仅被恐怖分子贮存在人类社会的某一角落(非自然起源之处)。
至于SARS-CoV为何会发生“逆向进化”,主要因为其非自然起源,不适应新宿主或只能一过性存在于宿主体内,故我们在学术上曾将其称“过客病毒(passenger virus)”;它只适应实验环境或某种(些)实验动物,离开人类和果子狸应是其最好的结局。当然,这是很简要的解答;若需了解如何应用流行病学和分子进化理论对SARS具体流行过程及其有关宏观与微观之数据进行的详细分析,请参考下段列出的2种文献。
综上,同时结合文献的有关研究结果,我们将先前提出“SARS-CoV的起源和进化假设”的框架图(图1-1)附上,但在本书修稿时,我们对该领域研究又取得了前所未有的进展,首次揭开了16年学术界难以解开的谜团:即初步阐明了2003—2004年广州非典暴发的传染来源和宿主[人和/或果子狸]携带病毒之逆向进化过程,故对图做了重要修改(具体情况见图注⑥)。由此使该假设的关键环节与客观实际业已相当贴近,甚至可说:该假设的各个环节均已有科学证据之有力支撑,将SARS和SARS-CoV的非自然起源的理论提高到一个新水平。所以,这个框架图不仅可使读者对非典流行过程全貌尽可能多地了解,更重要的是有助于认识为何在此时创建“分子进化流行病学”。
图1-1 “SARS-CoV的起源和进化假设”的框架图
注:①图中框,总体分两层:上层为SARS-CoV的起源和进化流程;下层除“实验室感染”外,为上层框的内容或毒株特性之描述。②487、479:SARS-CoV或Bt SL-CoV S1区487,479位AA,数字前或紧随其后的大写英文字母为AA之种类。③原29-nt,变29-nt,无29-nt(因画图之便,将“缺失”改成“无”):分别代表Bt SL-CoV或SARS-CoV ORF8特征性29-nt序列:CCAATACATTACTATTCGGACTGGTTTAT(nt.27866-27894),CCTACTGGTTACCAACC TGAATGGAATAT(nt.27869-27897)和特征性29-nt序列缺失。④SUD,终码SUD(参见有关文献):分别代表SARS-CoV或Bt SL-CoV ORF1a基因nsp3区独特的CDS和nt.6295突变后出现终止密码子的SUD。⑤SARS-CoV毒株:早GZ02 GD01:2002.11~2003.7流行早期病人的2株病毒;晚Tor2:2002.11~03.7流行晚期病人1株病毒;狸SZ3:2002.11~03.7流行早期果子狸1株病毒;04年GZ04:2003年年底~2004年年初广州暴发病人毒株;PC04:2003年年底~2004年年初广州暴发果子狸毒株。在此特别强调说明:在图中,也即SARS-CoV的起源和进化过程中,这些毒株应看作该时期SARS-CoV毒株的代表,并非仅是其本身。⑥“2002.11~2003.7流行”至“2003.12~2004.1广州暴发”之间的流行过程:在之前发表图的框(即插入“晚Tor2”、“狸SZ3”与“GZ04”、“PC04”之间)中的表述为:“狸-猫犬科。食肉目-人(携带中逆向进化)”;但在本书修稿时,我们与广东省疾病预防控制中心等协作组经调查研究已在学术上确认“03年年底~04年年初广州暴发”的主要共同暴露处某餐厅的果子狸受染后经历了逆向进化,故对上述文字做了相应修改,同时,将“狸SZ3”至该框、该框至“GZ04”的“箭头”分别删去,由此表明SARS-CoV在03.7流行后的进化顺序为:03.7流行晚期病人毒株-传染果子狸(携带中逆向进化形成PC04株)-广州暴发病人毒株(GZ04)。⑦实验室感染(贮存):首先指3起实验室感染及其发生地,时间和例数:04-3.25-4.17京皖(北京安徽);03-9.9新(新加坡);03-12.17台(中国台湾地区);紧随其后的数字为例数。其次,指目前自然界已不存在SARS-CoV,仅贮存于实验室内
在写本书时,对于有关SARS-CoV的“逆向进化”“过客病毒”之称谓,经查阅文献和思索之后,感到对这两个学术名词(前者虽已有许多文献,但应用于医学的不多;后者是我们前几年新提出的),在描述SARS或非自然起源疾病流行时应该更改,因为其实际上尚未准确表达SARS-CoV之实质和进化历程。“逆向进化”,国外学者对其定义为“再获得祖先群体的特征”,而该生物群体发生此现象之目的是“适应”变化之环境、躲过一劫,能继续生存并世代繁殖;因此,“自然进化”的生物之“逆向进化”,通常有其积极的意义,像世间任何事物一样是前进中必然的“曲折”。而SARS-CoV则完全不同,其本身自然界并不存在,是人为加工产生的,即“非自然进化”所致;从它到达自然界和人类社会的第一天开始,已决定了其夭折的命运:经过一时的“疯狂”之后将回归它的出生之地,被逐出自然界和人类社会。按现有的资料推断:SARS-CoV的祖先而非直接祖先,可能为我国一些地区的“SARS样冠状病毒(SL-CoV)”。有报告:在SARS流行之后的10年间,某地区蝠携带的SL-CoV(可称Bt SL-CoV)基因已产生新的点突变;但令人值得深思之处:却在当时,和该SL-CoV病原学上属冠状病毒同亚科、同属的中东SARS(中东呼吸综合征,MERS)正在人间暴发,而该SLCoV(Bt SL-CoV)未见任何致人间疾病的动静。我们可以请遗传学家、分子进化学者按SLCoV的进化历程和速度,同时和MERS-CoV进化历程比较、参照SARS-CoV序列中的某些片段与位点,计算或推算该SL-CoV或前述Rp3株需经过多长时间才能真正致人发病并在人群中暴发。从流行病学角度出发,我们推测可能再需十几年、几十年或更长,甚至在我们这几代人在世时不会发生人群暴发。当然,这种研究将有力推动分子进化流行病学的发展。
SARS-CoV的“逆向进化”不同于正常“自然进化”起源的生物(目前为“病毒”)之进化,因它是“非自然进化”的产物;所以,“自然进化”起源生物(“病毒”)的进化规律和原则,不一定或不完全或完全不适合“非自然进化”起源的生物(“病毒”)。此种“非自然进化”起源生物(“病毒”)的“逆向进化”促使其走向消亡,或“逆向进化”本身即为“非自然进化”起源生物(“病毒”)整个进化历程的一个必要甚至是十分重要阶段;且“逆向进化”的时段在其整个进化历程中所占比例可能很高。为了区别“自然进化”和“非自然进化”起源生物(“病毒”)之间“逆向进化”的不同作用与意义,至今应给“非自然进化”起源生物(“病毒”)的“逆向进化”正名。故我们对其称为“消亡前退化(the degeneration before eradication)”,其概念为:由“非自然进化”起源的生物(目前仅为“病毒”)脱离原产地进入自然(动植物)界和人类时,在进化过程中必然出现、能加速其消亡、使结构与功能退化的遗传物质及其表达物发生之变异。由于其英文文献中未见此术语和概念,英文译名应由西方学者承担;为方便计,我们暂译出如上,供参考。同样道理,“过客病毒”应正名为“夭折病毒(abortion-virus)”,概念为:由“非自然进化”起源的、进入自然(动植物)界和人类后经历不长时期必然消亡的病毒。
至此,可以、也应该进入本节的关键论述。从SARS-CoV的起源及其直接祖先之研究和探查的漫长过程中,可以看见一幅奇妙的画面:对21世纪初SARS流行这场刻骨铭心的全人类灾难,国内外广大学者义不容辞、绞尽脑汁、锲而不舍地从现场到实验室、从我国大陆(内地)到港澳,从东南亚、中东至欧洲,搜寻一遍又一遍,论文一篇又一篇:志向不可谓不高远,工作不可谓不细致,时间不可谓不用尽,努力不可谓不艰苦,结果不可谓不丰富!然而,论文结尾经常是“还需深入研究”,或“SARS-CoV的直接祖先还需遍地、全面、仔细地搜索各种各类蝙蝠”,或“SARS-CoV从动物宿主到人类的跨种适应性进化有待进一步的实验研究”等。
可是实际上已如前述,许多学者甚至该领域内权威也已将SARS-CoV各种系统发育树、487与479位等重要AA、ORF8特征性29-nt序列、SARS-CoV与Bt-SLCoV之间的异同,蝠、狸与人之间的关系等,甚至病毒侵入人体、跨种传播及其在进化起源中的作用阐述得相当清楚。同时,这些学者的专业领域十分广泛,几乎涉及传染病流行的所有学科:传染病学、流行病学、分子生物学、医学微生物学、微生物学、医学病毒学、病毒学、生物学、医学地理学、生态学、生物信息学和系统发育学,甚至某些社会科学等;值得一提的是许多流行病学家也进行了现场和实验研究甚至分子流行病学研究,而且还在国际知名杂志发表不少文章。但为何最终却未找到答案呢?
这幅画面的景象是否值得令人们尤其学者们深思、再深思:原因何在?!我们考虑,正如我国成语“高瞻远瞩”,欲穷千里目,更上一层楼,我们站的高度不够,观察、研究和分析新事物的高度不够!主要有两个方面:哲学高度和学术高度。第一,哲学高度:唯物辩证法是目前辩证看待宇宙事物发展的正确认识论,其理论的主要核心即为上已提及的对立统一法则,简言之,一分为二。而我们往往极其严谨地按常规思维,按以往新出现病毒的研究方法一步一步地进行,这是理所当然的,因为这是科学;科学的真实结果应该是百折不回才能取得;然而,在一再碰壁后或反反复复许多次试验后,能否反方向考虑一下?!当然,在SARSCoV问题上谁会想到它不是自然进化所致!这是开天辟地第一遭!因为若SARS-CoV人为所制,意味着人类已经进入能人工制造病毒并使之在全球大流行的新时代。所以,学者们未考虑到应在情理之中;但国内外长期大量的研究工作未获正确结果之原因恰就在于此!第二,学术高度,这是本节的主题。如上所述,许多流行病学家和我国各地的流行病学工作者勇于奉献,奋斗于疫情一线,同时在SARS防治及其起源研究方面做了大量的工作,取得巨大成绩,甚至可以认为他们和临床医务人员一样,在这场SARS防治战斗中起到了中流砥柱之作用。然而,从很多论文中可见,主要是常规研究、现场调查资料与疫情数据之分析;也有些分子流行病学的工作,但涉及SARS-CoV进化的很少,即使进行了分子进化的研究,但对结果仍按常规分析。
显而易见,欲在SARS-CoV的起源和直接祖先研究方面有所突破、欲揭开SARS-CoV起源之谜,必须在此学术领域内催生一个“新生儿”——“分子进化流行病学”。在本节的开头,我们指出,“任何理论常是符合客观规律的(包括现场和实验等)实践之总结”;而反之亦然,即任何理论是实践中遇到不能解决难题之迫切需求,任何理论均是实践的召唤,实践是理论的“催生婆”。理论源于实践,实践需求理论:符合任何事物均具“两面性”这一哲学原理。
事实上,我们应用“分子进化”并非主动:如前述,许多流行病学证据均指向一点:SARS是非自然起源;但要取得公众和学者们之认可,必须寻求“分子生物学”“分子进化”等“分子水平”结果的支持。于是,有了睡觉朦朦胧胧中出现SONG H等的系统发育树的景象。经过再对其反复认真地研究和思索,才真正发现“分子进化”对流行病学研究的重要性,才真正意识到“分子进化”是揭开SARS-CoV的起源和直接祖先之谜的金钥匙:它可以重塑SARS-CoV的系统发育树与进化历程,由此只需勤奋认真就不难发现其直接祖先和起源!此后,即紧紧抓住这一主要矛盾——SARS-CoV基因组及其各种遗传标志的进化不放,果然成效显著、达到预期目标。
在此过程中,我们已对“分子进化”理论和技术刮目相看,结合其有关进展感悟到,它已被广泛应用于许多医学专业,而且日新月异;为此,应只争朝夕,2013年大胆地在研究生的讲课中首次提出了“分子进化流行病学”新概念,当时定义为:“还原和评价病因(尤其病原体、宿主和环境的)基因之起源、演变、和宿主相互作用的进化历程,着重对其和疾病发生与流行的影响进行研究;预测将来的演化及其和疾病发生与流行的关系”。可见,当时概念中研究对象的范围比较局限;因为精力主要着重于SARS,看到的文献中,传染病亦居多。
“分子进化流行病学”首先应用于传染病发生与起源及其分子机制的研究,是意料中事:因为传染病:①发生突然、流行广泛且危害严重;②病因集中、相对明确;③病原体和宿主之相互作用及其相关遗传物质参与状况较非传染病易于研究;④在人类历史上,对传染病认识远较非传染病早且多,有利于进化史之重塑。
然而,由于基因工程技术突飞猛进,在“人类基因组计划”问世后,不仅产生了研究基因组组成和功能的基因组学(genomics)及其两大分支:结构基因组学(structural genomics)与功能基因组学(functional genomics)(详见有关章);而且促使分子进化(或分子生物学、群体遗传学)相关技术日益更新,尤其是全基因组关联分析(genome-wide association study, GWAS)和“下一代测序技术(next generation sequencing, NGS)”,后者又称“高通量基因组测序(high throughput genomic sequencing)”,其在近几年才建立,以解决GWAS之不足[如“遗传力缺失(missing heritability)”“统计效能低(lower statistical power)”等],能寻找慢性病、少发病甚至罕见病以及遗传病之相关基因变异位点和序列及其进化历史;而GWAS和NGS经国内外学者结合各专业领域(如流行病学、临床医学各科、统计学、生物信息学等)的理论和实际,又推出了许多新的术语、概念、技术、方法与平台以及相关的统计学软件,并出现了以进化术语或疾病名称或地理区域等命名的各种各类协作研究;因此,这些术语、技术与方法的名称层出不穷,又因学科交叉、文献与结果天天更新、国外专家用词也不完全统一、国内专家的翻译各有所长等原因,难免有杂乱、重叠,甚至误用等。作为非分子进化领域之流行病学工作者,我们面对这些技术术语或协作研究的名称可谓眼花缭乱:诸如WTCCC(Wellcome Trust Case-Control Consortium)、GWAS研究(包括WTCCC1、WTCCC2、WTCCC3)、1 000个基因组项目(the 1 000 genomes project)、国际人类基因组单体型图(human haplotype map, HapMap)项目(the international HapMap project),欧洲人类基本性状遗传研究(genetic investigation of anthropocentric traits, GIANT),美国NIH基金会GAIN的基因组分析研究;多基因疾病(polygenic disease),常见疾病常见变异(common disease common variant, CDCV)研究,常见疾病罕见变异(common disease rare variant, CDRV)研究,罕见遗传变异关联研究;候选基因关联研究;人类进化医学基因组学(humanevolutionary medical genomics),基于基因分析(gene-based analysis)研究,合成关联(synthetic associations)分析,基因功能富集分析(gene set enrichment analysis, GSEA),GWAS通路分析(pathway analysis),拷贝数变异(copy number variation, CNV)研究,基因敲除(genetic knockout)研究,外显子测序(exome sequencing),基因多效性(pleiotropy)研究,交叉表型(crossphenotype, CP)关联分析,标签(tag)单核苷酸多态性(single nucleotide polymorphism, SNP)研究,SNPs相互作用分析,大规模目标测序分析(large-scale targeted sequencing studies);平衡选择(balancing selection)研究,亲缘选择(kin selection)研究,(基因)权衡(the tradeoffs)和漂移(drift)研究;广义多因子降维(generalized multifactor dimensionality reduction, GMDR)法,核算法(kernel methods, KMs)等,不一而足。
上述方法和项目研究中,值得称道者为两项:14 000病例和3 000例共享(shared)对照之全基因组关联研究(GWAS)、1 092个人类基因组的遗传变异整合图。前一项由英国WTCCC报告:在英国人群中,使用映射列阵进行研究,调查了7种主要疾病:双相情感障碍(bipolar disorder)、冠心病、克罗恩病(Crohn disease)、高血压、风湿性关节炎、1型和2型糖尿病。分别收集每种疾病约2 000例;而对照则共享。病例对照比较在 P<5×10 -7水平确定了24个独立的关联信号(基因座),分布于除高血压外的其他6种病;几乎所有这些独立的基因座反映了有关疾病真正的易感性效应。而且由可靠证据显示,某些位点存在着不止一种所研究疾病的风险。此外,还在7种疾病中发现了大量值得深入研究的其他易感性的关联信号,其中包括 P值介于<5×10 -7~5×10 -5之间的58个独立位点。更引人注目的是,由于大多数确证的位点具中等(与致病相关的)效应,故适当的大样本很重要。作者认为,该研究反映了GWAS方法十分可靠。
后一项由1 000个基因组项目联盟发表的结果,即“1 092个人类基因组的遗传变异整合图(an integrated map of genetic variation from 1 092 human genomes)”。作者们应用低覆盖(率)的全基因组和外显子测序相结合之方法,重塑14个群体1 092例个体之基因组;又通过整合多种算法和不同数据源信息之途径,重塑了一个具3 800万个SNPs、140万个插入缺失(indel)以及14 000个以上大缺失且经确认之单体型(haplotype)图。结果发现不同人群的个体具不同的罕见和常见变异,且低频率变异显示了巨大的地区分布差异,后者又由净化选择(purifying selection)作用而进一步加剧。因之,进化上保守和编码重要区位与净化选择强度之间高度相关。罕见变异的负荷在不同的生物学途径有很大差异;且每个个体在保守位点均有数百种罕见的非编码变异。作者运用的资源库在相关人群中以1%的频率捕获了98%可检测的SNPs,从而能够分析来自不同人群(包括混合人群)的常见和低频变异体。
这两项研究的重大意义不言而喻:第一,对于和人类常见或罕见疾病致病、诊治、流行与预防相关的、在群体内高或低频率甚至罕见之遗传物质(包括基因、表型等)均可经通力合作、严密设计、较大样本、综合应用多种先进方法和多类信息数据、慎重而灵活的处理和分析等方式,必定能逐步深入地揭示其本质;进而再结合不断变化的社会和自然环境因素的研究,为人类健康作出前所未有的贡献!第二,为国际上涉及分子进化领域乃至所有生命学科研究各类动植物,尤其人类遗传物质的过程,均发挥了引领和示范作用,由此极大提高了世界各国学者攻克相关难题之勇气和信心,有力提高了对生命科学遗传物质分子及其进化历程的研究之发展速度!
这些领域至今所取得的成就也足以证明上述论断:GWAS研究成果于2016年12月4日前已有2 650项,共发现与疾病及其性状相关的SNPs达25 732个:仅2016年报告:比前一年新增疾病相关SNPs位点6 766个;至2016年9月1日,337种杂志2 518件出版物发表了24 218个独立性状的SNP关联。据报,至2017年8月14日又新增1 048个。
当然应该指出,和宇宙的任何事物发展一样,高通量基因组测序技术(NGS)也非完美无缺,仍存在一定的局限性:错误率较高,对于十分罕见变异体和比例较大的缺失值尚有难度。但是第一,如上所述,该两项研究已通过“综合应用多种先进方法和多类信息数据、慎重而灵活的处理和分析方法”降低了错误率;第二,在研究实践中,必定将发现和建立新的技术和方法,解决上述问题和克服面临的其他困难,使分子进化和遗传生物学等研究不断地更新。
从上可见,许多研究已完全超出了“传染病”领域,将“分子进化流行病学”推向非传染病尤其是慢性病领域。然而,远不至此!从已有的文献和工作视之,分子进化和分子进化流行病学已扩展至人类健康乃至人类起源。
典型实例为基因和身高、肤色与肥胖(后者在本章其他节描述)之间相关的研究。GWAS的研究已经确定了600多种与包括身高、肤色与肥胖在内的人类性状相关之变异,而这些发现仅是表型变异的一小部分。Lango Allen H等2010年研究了183 727个个体,证明至少有180个变异位点影响成年高度,可见人类身高为高度遗传和典型的多基因性状(注:“性状”为遗传学术语,指生物之特征);作者指出,相关变异可能多见于被过度表达之基因,后者涉及改变蛋白质氨基酸结构及其附近基因表达水平;而此结果仅和约10%的表型变化有关。北京协和医学院郝永臣等2013年认为,身高的遗传度约为80%,表明遗传起着决定性作用。且身高和体重指数的遗传在不同人群中存在差异,特别是东亚人和欧洲人之间;作者发现3个新位点( P<5×10 -8),其中 ZNF638基因rsl2612930关联信号最强,而ZNF为锌指蛋白,参与骨发育;更有意义的结果显示,前者在我国和欧洲人群之间存在很大差异。
基因和人类肤色(健康的重要因素)之间相关研究的结果更为惊异:不仅发现和人类肤色变化之相关基因,而且其地区分布差异显示人类进化中人体基因和“自然-社会选择”(“社会选择”这一新术语详见本书后面有关篇章)相互作用之历史过程。Basu Mallick C 2013年的报告显示,经血统确认浅肤色等位基因 SLC24A5为南亚和欧洲人所共有:因为在南亚人(包括中东、中亚、巴基斯坦和印度北部的人群,但印度南部人群却不在其内)的色素沉着多样性中起关键作用的正是该基因;而后者和欧洲人中发现的基因在血统上完全相同,属于相同的单体型(haplotype)背景。作者进一步在世界范围内95个个体中,将 SLC24A5基因的11.74kb测序显示,南亚和西欧的等位基因是单源(monophyletic)的,是在一种具有低遗传多样性性状的常见单体型背景下发生;尤为重要者,结果显示这个与浅色皮肤关联之等位基因的联结时期在2.2万~2.8万年前。作者们又对印度次大陆54个民族的1 573个体的此种多态性进行了广泛调查,结果显示等位基因 SLC24A5频率在人群中差别很大,即地理空间模式很复杂,正反映了人群语言、地理和人口学历史对其有强大的影响。由此认为,自然选择的力量、独特(如严格的内婚制)的人口统计学历史和居住状况(注:后者实际应为社会选择)对印度次大陆的人口结构有重要的作用。
Canfield VA等也于同年发现,阳光暴露的差异造成不同的自然选择(注:实际应为自然-社会选择)也导致了人类之间皮肤颜色的独特变化。他们认为,导致浅肤色的 SLC24A5基因之等位基因(即 A111T),主要见于欧亚西部(Western Eurasian)血统的人群。更高一筹,为具体了解何时何地出现该突变,作者创新地定义了不同人类群体围绕 SLC24A5基因组周围区域内常见的单体型并推导出它们之间系统发育的关系,由此发现携带等位基因的所有染色体共享一个78kb称为“C11”之单体型,表明人类所有群体的这种突变均来自一个共同的起源;深入研究的证据又提示:此单体型很可能由两个单体型之间的交互作用形成,继之发生等位基因突变;研究表明,可从东亚到美洲发现这两个单体型的亲本,但在非洲几乎没有。由此推断,此单体型分布及其亲本单体型的形成过程最可能为:终末这两个步骤发生在中东和印度次大陆之间,发生等位基因突变则在欧洲和东亚人的祖先分离后。
我们可见,这些研究十分重要,尤其是基本明确了和浅肤色相关的 SLC24A5等位基因进化年代和地区变迁之工作,令人倾倒:不仅证明现有的方法和技术足以揭示人类健康和疾病的低频率甚至罕见的重要相关基因,而且通过相关基因的地区分布和演变过程并结合当时当地社会与自然因素变化之影响,可以推断人类健康和疾病的进化过程(详见第三篇);而后者对增进健康、疾病的诊断、治疗、预防,乃至控制疾病的发生与流行,最终消灭某些疾病(当然按宇宙事物的发展规律,同时必将产生新的疾病)起到关键作用!而这也正是分子进化及其包括分子进化流行病学在内的各种交叉学科之主要任务;换言之,分子进化流行病学及其他分子进化的各种交叉学科正逢分娩之时!
2010年前后,国外提出了“分子进化医学(evolutionary molecular medicine)”“分子病理流行病学(molecular pathological epidemiology)”等,前者认为,应将飞速发展的进化生物学(evolutionary biology)引入分子医学(molecular medicine);后者的概念为:分子病理流行病学,是一种多学科研究:即对外源性和内源性(如生殖系遗传)因子、肿瘤分子标记、肿瘤起始、进展和对治疗反应的研究。还有学者认为,现在“将进化理论应用于医学和公共卫生领域(evolutionary applications to medicine and public health)”是极好的时机!由此可见,西方医学各领域十分重视将分子进化理论和方法引入本学科;虽然目前尚未见公开发表“分子进化流行病学”的概念和理论,但很可能准备或已将其安排在日程表上!
科技发展离不开社会制度。鉴于一百多年前,我国处于封建社会末期,统治阶级腐败无能,对内欺压百姓,对外屈膝投降;随后又陷入军阀混战、半封建半殖民的境地,民不聊生,使我国经济水平和科学技术远远落后于发达国家。但是,中华人民共和国成立后,人民当家作主,政治、经济、文化、科技等全面振兴,急起直追,至今已成为世界强国,为祖国科学技术的突破性发展奠定了坚实的基础。为此,几届中央领导在科学技术上反复强调“原创性”,要求学术界占领国际前沿!习近平主席于2018年5月28日在中国科学院第十九次院士大会、中国工程院第十四次院士大会上号召我们:“进入21世纪以来,全球科技创新进入空前密集活跃的时期,新一轮科技革命和产业变革正在重构全球创新版图、重塑全球经济结构。”“我们坚持走中国特色自主创新道路,坚持创新是第一动力”。
中华民族有五千年的文明史,面对党中央的殷切期望,我们作为炎黄子孙应该有勇气、有魄力,不计较个人得失,当仁不让,由此毫不犹豫地率先在世界上创建“分子进化流行病学”的概念和理论,为古老的中国焕发青春奉献自己!
在规范“分子进化流行病学”定义之前,有必要先叙述与之有关的“分子流行病学”定义及其变化。我们在1998原版提出:“分子流行病学是应用先进的实验技术测量生物学标志,结合流行病学现场研究方法,从分子水平阐明疾病的病因及其相关的致病过程,并提出与评价相应防制措施的科学。”其中,生物学标志可简称生物标志,两者在国内文献已通用;因为Schulte在《分子流行病学》内就将生物学标志(biological markers)又简称生物标志(biomarkers)。
继后,随着其应用于研究、教学与疾病防控工作实践的不断深入,随着生物技术和分子流行病学本身的快速发展以及“人类基因组流行病学(human genome epidemiology, HuGE)”问世,对此定义几经改动,直至2009年在研究生教学中加以修改完善,沿用至今:“应用分子生物学等实验技术,结合传统流行病学方法,从分子水平,研究人群中疾病和健康的生物学标志分布及其进程和影响因素,并提出与评价调控措施的科学。”
相对比,可见有几处重要更动:
(1)由“流行病学现场研究”改为“传统流行病学”:“传统”是关键,在下述有关节内将做详解。
(2)由“疾病的病因”改为“人群中疾病和健康的”:包含:①加上“人群中”,强调“群体”,提示“生物学标志(其中,必然含“基因”等遗传物质)”之“群体”频率;②增加“健康的”,表明人类“健康”也是研究对象。
(3)将“生物学标志”由前放后:即原来仅被测量的指标,改为研究其在“群体”中频率分布的这一在流行病学和进化上均十分重要之数据信息。
(4)将“及其相关的致病过程”改为“生物学标志分布……(变化)进程和影响因素”:由此,①“进程”,实际上为“(历史)进程”,上述(2)中又强调“群体”频率,提示应研究“生物学标志”在“群体”之间相关关系之进化历程;②增加“影响因素”:在流行病学中“影响因素”,通常指“(社会-自然)环境的影响因素”,可见,此“定义”已将“生物学标志”“人群中疾病和健康”和“(社会-自然)环境的影响因素”三者及其相互作用作为“分子流行病学”研究范畴。
所以,《分子流行病学》出版后,由于科学进步和实践积累,其内涵不断地适应形势而逐渐变化和扩大,同时也为“分子进化流行病学”的诞生铺平道路。
二、分子进化流行病学的定义及其内涵
可无疑义,厚积薄发。在此应将2013年提出的“分子进化流行病学(molecular evolutionary epidemiology)”概念加以补充和完善成定义:“应用分子进化技术,结合流行病学原理和方法,重塑和评价人类健康和疾病及其相关的遗传物质在社会-自然环境影响和相互作用下之起源、演变与顺向/逆向、自然/非自然进化的历程,阐明其对健康和疾病发生、流行与防控的作用,预测将来的发展趋势。”
不难看出,此定义文字很多,可能是流行病学及其分支学科内最长的定义。究其原因,抑或这是一门多学科之交叉学科、抑或“分子进化流行病学”对重要理论、概念的影响十分宽广、抑或作为一门新学科对其宗旨还需在发展过程中加以提炼等。目前定义的内涵主要应有如下几项:
1.研究方法
将先进并不断推陈出新的分子进化理论和技术引入流行病学研究并互相结合应用;重塑相关的各种分子系统发育树并描述其与流行病学研究取得的人类健康与疾病资料之关系。
2.研究过程
还原和评价人类健康和疾病及其相关的遗传物质的进化历程。应强调,我们对其进行了似有新意的具体描述和限定:
(1)遗传物质:定义中不局限于基因。伟人达尔文在其传世著作《物种起源》中即提示,遗传物质有多种;而近年来,科学发展已证实此点。
(2)遗传物质的进化不是仅靠自身进行,而是和周围环境与携带其的宿主个体-群体相互作用下才能实现。这符合宇宙事物发展的普遍规律。
(3)周围环境内应重视社会因素:在生物进化的论文和专著(包括《物种起源》)中列举研究成果和观察生物进化时,不仅描述自然因素的影响,同时也介绍社会因素的作用,如人群迁移、风俗习惯、行为变化、文化提高、经济发展、科技进步、社会变动、人为破坏、战争扰乱等,不胜枚举。然而在讨论分析时,经常仅提及达尔文时代的“自然选择”,虽论述一些社会因素的影响,但始终未见“社会选择”一词。随着近代、现代的社会进步,社会因素对生物进化的影响愈来愈大,在某些情况下甚至超过自然因素;可以预见,由于社会制度的更新,社会因素对人类健康和疾病的巨大作用更为显现(详见第三篇)!
作为流行病学工作者,在两(社会-自然)因素对健康和疾病的影响上,谈点我们的看法。早在30多年前,教研室在集体备课时,对此做了长时间的讨论,得出的统一结论:社会制度与经济水平极为重要;两个无可辩驳实例为:①中华人民共和国成立后,在短时期内即控制了在国民党时期十分猖獗的五大寄生虫病、一些烈性传染病和性病;②西方国家经济水平很高,因而在发展中国家极其常见的消化道和呼吸道传染病不多。
因此,定义中将“两因素”在此写为“社会-自然环境”,意在突出社会环境的作用,使我们今后的研究更有针对性,得出的结果更可靠;当然也为本书后面提出“社会选择”和“双选择-两分法达尔文主义(生物进化论)”新的进化理论探讨做些铺垫。
(4)相互作用:在《物种起源》中,达尔文每举进化实例时常描述遗传和周围环境的相互共同作用,后来的学者也大多如此。另一方面,达尔文《物种起源》的许多文字描述了哲学观点,尤其在上述提及的遗传和周围环境的相互作用时。故我们也从辩证唯物主义哲学的对立统一法则考察,任何事物均是对立统一的,即“一分为二”;故地球上的生物和周围环境是对立统一的关系:共同依存、相互作用;两者之间起始时必然有适应和不适应的矛盾,经过互相作用或磨合,最终仅有能适应变化着的环境之携带变异遗传物质之个体-群体(实际其自身也在不断变化着)才能在自然界和社会中生存:适者生存!当然,“相互作用”很复杂,在此至少应有几方面的相互作用:遗传物质-携带遗传物质的个体-群体-社会-自然环境。因而,定义强调了“相互作用”。
(5)个体-群体,宏观-微观:既往相当长时间,在学科或学术研究中对“个体”和“群体”分得十分“清楚”。在医学领域内,广泛流行的说法:预防医学为“群体医学”,而临床医学主要对象为“个体”,基础医学更是针对人体的器官、组织、细胞、分子甚至分子之内部结构。按其研究对象和领域而言,有一定道理。但是,从研究思路和方法视之,将“个体”和“群体”截然分开,可能得不到全面、准确的结果。因为“个体”和“群体”也是一对矛盾:既对立又统一,互相依存和作用。不仅“个体”之研究结果不一定适合“群体”,反之亦然;而且在研究思维和设计上,脱离“群体”的“个体”研究结果很可能不可靠乃至有误,反之亦然。相对于“群体”这个“宏观世界”而言,“个体”则是“微观世界”;而“宏观”与“微观”又是一对矛盾。SARS流行期间及之后,各级政府和广大群众对流行病学似有了新的认识,疾病预防控制中心(CDC)的地位和资金支持均有提高,反映了大众对流行病学在防控传染病方面之作用的认可;在学术界亦然。但是,各专业领域结合和利用流行病学理论与方法,如何为其研究取得创新性成果服务尚不得而知。我们在回顾为何用了近10年时间对SARS与SARS-CoV起源之谜尚未揭示时,曾写下一段话:“可能由于从事工作的绝大多数学者来自分子生物学、生态学、病毒学、微生物学、生物信息学和系统发育学等领域,虽也曾进行流行病学甚至分子流行病学研究,然尚未完全从宏观的视角,对SARS流行的自然史进行深入比较研究,从而发现SARS流行的非常独特之处。”由此不言而喻,应重视“群体”“宏观”,应从“个体”和“群体”(个体-群体)、“宏观”和“微观”(宏观-微观)结合的视角进行各类研究。
(6)极其重要的研究思维方向和科学概念:顺向进化与逆向进化(顺向/逆向)、自然进化与非自然进化(自然/非自然);实际上,这又是重要的两对矛盾:对立而统一地推动进化之发展。然而,过去相关领域对“逆向进化”研究不多,尤其在对人类健康和疾病影响方面。关于“逆向进化”的定义,上述已提及,其重要作用也稍有叙述。
“非自然进化”,可能既往见得也不多;常见者为“人工饲养”“人工培育”“人工选择”“人工移植”“人工植入”,甚至“克隆动物”“克隆人”。在此,“非自然进化”主要指由“人为设计”将“自然进化”中的“非人类病原体”诱变成“人类病原体”并在人群中流行;即将非致人发病的动物界携带、自然进化着的病原体(目前仅为“病毒”),在人类实验室及其试验现场进行基因工程改造,使其适应于人并在人群中发病、致全球流行。前述SARSCoV引起SARS流行即为一例。
前几年,甚至以上述同样方法与手段,进一步可使某种自然进化着的健康动物“非自然进化”诱变成下述病毒宿主:该动物仅能在某地区生存、并长期携带上述“非自然进化”之病毒且使之在该动物群体内世代繁殖与传播(即“非自然进化”的“贮存宿主”)。由此,该种“非自然进化”之传染性病毒病将在“某地区”长年不断地流行;理论上,“某地区”即可命名为“非自然进化的人为疫源地”。后者的定义:由“非自然进化”的贮存宿主引起类似于自然疫源性疾病世代流行的地区。同理,“非自然进化”的贮存宿主引起、局限于某一地区、世代流行的疾病,可称为“非自然进化的疫源地性疾病”。
这种“非自然进化”的病毒及其在人类中流行,史无前例;在传染病、流行病学、医学病毒学甚至分子生物学、生物进化、分子进化等学术发展历史中,从未显现;因此,“非自然进化”病毒的出现,在上述学术领域内树起了一块新的高耸的里程碑!理由很充足,第一,历史上人类病毒性传染病,其病毒均为在动物界“自然进化”经相当长时间、十分缓慢地、逐步地(由初步至部分再至不完全直至完全)适应于人或人类起源时已为祖先携带之病毒适应于己后,才又一步一步地发病、局部流行,随时间推移(几年或十几年甚至几十年、上百年)而至广泛流行;第二,迄今,人类病毒性传染病中,仅消灭了“天花”一种,后者已有数千年的历史,是人类传染病中唯一被消灭之病种;天花消灭后,WHO又制订了消灭麻疹、脊髓灰质炎等数种传染病,但经二三十年努力,目前尚任重道远;而第一种“非自然进化”之病毒病-“非典”,早在2005年年初由美国权威的病毒学家(尤以研究冠状病毒称著)在全美学术会上宣布:SARS-CoV除实验室外,自然界和人类中已不存在;换言之,SARS的状态像“天花”一样被消灭了。十多年过去了,事实证明她的科学论断无比正确!故“自然进化”和“非自然进化”的结局竟如此截然不同!第三,“非自然进化”的进化过程或历程绝不会和“自然进化”者完全相同;同样,研究“非自然进化”的进化过程或历程绝不应该完全遵循“自然进化”的研究思路与方法,否则将进入死胡同!SARS与SARS-CoV起源的研究过程即是典型例证。令人感叹的是,至今仍有许多学者对此未引起足够的重视,甚至抱有某种怀疑态度;诚然,在科学发展的道路上,对新出现之事物、概念和理论常常被学界置之不理甚至反对、敌对者不乏其例。故我们在定义内加上“顺向进化与逆向进化(顺向/逆向)、自然进化与非自然进化(自然/非自然)”,理所当然。
3.研究目标
评价人类健康和疾病及其相关的遗传物质之进化历程,阐明其和社会-自然环境影响的关系,由此确认其对健康与疾病发生、流行、防控的作用并预测将来的发展趋势。