第三节 生物学标志的筛选与评价

分子流行病学是阐明人群和医学相关生物群体中生物学标志的分布及其与疾病及健康的关系和影响因素,并研究防治疾病、促进健康的策略与措施的科学。开展分子流行病学研究,首先必须选择合适的生物学标志。生物学标志包括细胞的、生物化学的、免疫的或分子的改变,能代表生物结构和功能可识别(可检测)的物质特征。这种可检测的物质是信息实体,具有一定的标识作用,代表着从暴露到疾病过程中的一个个信号。也正是因为这一点,分子流行病学可以通过疾病或健康不同阶段生物学标志的测量和影响因素研究,全面阐明疾病自然史,把握机体从健康到疾病或从暴露到发病过程中出现的各种特征性信息。
一、生物学标志的特性
在选择生物学标志时,首先要了解生物学标志本身的特点及其存在和变化的规律,以及生物学标志间可能的复杂的生物学联系,生物学标志特性的研究本身具有极其丰富的内容,其共同特征为:
1.分子特性
生物学标志具有化学物理等特性,每一种或一类生物学标志的分析条件、水解条件、储存介质要求、稳定性等方面有所不同,如作为DNA氧化损伤的生物学标志,8-羟基脱氧鸟苷(8-hydroxy-2-deoxyguanosine,8-OH-dG)的特性研究,进而研究有毒化学物质对生物体内的氧化损伤,8-OH-dG储存在中性偏酸的缓冲溶液中损失较少,其形成与所处介质环境有关,在氧化源存在或有氧环境中一定时间内有累积作用,添加抗氧化剂等干预措施后,能灵敏而稳定地对DNA中的8-OH-dG进行测定。
2.时相特性及动态变化特性
时相特性即生物学标志在暴露-发病连续带(exposuredisease continuum, EDC)不同阶段的表现和意义,同时应考虑这种生物学标志存在的时间长短,进入体内代谢半衰期等(表2-5)。比如,假定在靶组织中某种暴露形成DNA加合物和蛋白质加合物,DNA加合物经过复杂的生物学过程,导致某种恶性肿瘤的发生,而蛋白质加合物并不与癌症发生有关,但是在研究暴露与疾病的关系选择暴露指标时,常选用有累积暴露效应的蛋白质加合物,而不选用存在时间较短的DNA加合物,从而可能导致研究结果的假阴性。
表2-5 生物学标志的持续性
动态变化特性体现在以下两个方面:①特性上的动态变化:除了当某种暴露作用机体时,机体会出现一系列生物学改变,体现在生物学标志的变化上,这些变化形式多样,某些生物学标志可以从无到有,也可以是表达水平高与低的变化,如抑癌基因突变使相应蛋白表达量降低。②角色上的动态变化:像高血压即是某种暴露的结局,又是卒中的病因一样,某些生物学标志既可以是效应标志,也可以是暴露标志。在分子流行病学研究中,要根据研究目的来确定生物学标志的角色。
3.变异性
生物学标志在个体自身、个体间和群组间都存在着变异性,而储存也会使生物学标志发生变化。
(1)个体内变异:
生物学标志在个体自身(个体内)常随时间而变化,如某种内暴露的测量时,某个体某时点的生物学标志测量值为低水平的暴露状态,然而即使其环境的暴露依然如故,之后采集的标本却可能表示高水平的暴露,这种个体自身变异取决于多种因素:①采样与实验分析中不可避免的随机误差可能引起生物学标志的变化;②其他暴露的协同作用,如饮食因素并不直接引起生物学标志的反应,但它可以修饰生物学标志对某种暴露的反应性。当研究者期望在慢性健康结局(health outcomes)的研究中获得个人暴露状态的估计时,生物学标志的个体自身变异无疑会导致错误分类,在这种情况下,选用稳定性好的能反映累积暴露的生物学标志显然优于变异性大的。然而,对变异性范围大的生物学标志在不同时间采样进行多次测量,对个人长期暴露状态也会得出比较精确的估计,另外,必要时应对其影响因素进行分析。
(2)个体间变异:
相同的环境暴露在不同的个体之间也会获得不同的体内剂量和生物有效剂量。因此,根据环境监测所做的暴露估计可能会引起暴露的错分,比如要观察与判断某种溶剂在暴露工人中的体内剂量,该溶剂的体内剂量的大小不仅与工人所处的环境空气中该溶剂的浓度高低和工人暴露的时间长短有关,而且还与个人的肺通气量和皮肤吸收的情况有关。再者,对这些因子的代谢性清除(呼出或代谢为其他化学物质)方面也存在着差异,即使体内剂量相同,由于清除的速度不同,相同时间不同个体间体内剂量就有差别。此外,个人对环境暴露所致的分子损伤的修复能力也存在差别,则生物有效剂量也会不同。因此,考虑到个体间差异的影响,选择一种适当的生物学标志可以较好地反映个体的暴露情况,而不是笼统地对环境暴露的估计。与个体自身变异相比,个体间的变异有时可能会更大些。个体间变异造成暴露错分的机会更多一些。
(3)群组间变异:
具有不同暴露程度的人群组必然显示相应的生物学标志的变异性,换言之,生物学标志的分布在暴露组与非暴露组不可能是相同的,这种生物学标志才有可能在暴露与疾病关系的研究中判断个体的暴露状态。组间变异应比个体内和个体间变异相对大些。由于灵敏度和特异度合并了所有来源的变异,因此,人们可以用灵敏度和特异度或方差分析来评价一种生物学标志的分类适用性。就组间变异而言,除了来自随机误差之外,也可能来自系统误差,应予以充分的注意。比如,病例和对照的样品在贮存与处理过程中微小的差别都可能使其测量结果发生偏倚,如果病例和对照的样品在不同的日期分析,实验室漂变(来自试剂、仪器和操作者等各方面的变异)有可能引起偏倚。因此,强调必须同时处理病例和相应对照(即匹配的或成组比较的病例和对照)的样品,从贮存直至实验室分析的每个步骤均应如此。
4.敏感性和特异性
这是生物学标志检测结果与实际情况接近程度的真实性评价的主要指标,所选生物学标志的测量水平与暴露水平存在一定的相关性或剂量-反应关系,无论暴露的效应如何,仍能维持这种关系。敏感性(sensitivity, Sen)亦称灵敏度是在实际暴露或患病的人中某生物学标志能正确地将其判定为暴露或疾病的人所占的百分比,即真阳性率。按四格表(表2-6)计算,Sen=a/(a+c)。反映生物学标志的检出能力,其值愈大,该生物学标志敏感性愈高。灵敏度与假阴性率(漏诊率)之和为1,即二者互补。特异性也谓特异度(specificity, Spe)是在实际没有暴露或疾病的人中某生物学标志能正确地将其判定为未暴露和未患病的人所占的百分比,即真阴性率。Spe=d/(b+d)。它反映该生物学标志排除暴露或疾病可能性的能力,其值愈大,该生物学标志特异度愈高。特异度与假阳性率(误诊率)之和为1。在考虑检测方法灵敏度和特异度的同时,还要确定判定阳性和阴性的标准,即截断点(cut off value),要权衡利弊,选择适宜的截断点,兼顾灵敏度和特异度,两指标愈低导致错误分类的可能性愈大。
表2-6 评价生物学标志真实性的资料整理表
此外,还要注意实验室工作者使用的敏感性与流行病学灵敏度(敏感性)的概念有所不同。实验室工作者定义敏感性为能检出待测样品中的最低水平,能检出的水平(最小值)愈低,方法愈敏感,这种意义上的敏感性不是用率表示的。比如,检测某种病毒的特异性抗体或某种肿瘤的蛋白质血清学标志物,用间接免疫荧光法(indirect immunofluorescent assay, IFA)可从10 -4ml血清中检出,而用放射免疫测定(radioimmunoassay, RIA)可从10 -5ml血清中检出,那么RIA比IFA敏感,这常常是实验室工作者所说的敏感性。与生物学标志相关的敏感性实际上有两层含义:一是生物学标志检出暴露或疾病的敏感性,这是对标志物本身的特性来说,也是我们选择生物学标志的标准;另一是用于判断该生物学标志分析方法的敏感性,这是检测生物学标志的方法敏感性,是供我们在确定了要检测的生物学标志之后选择其测定方法时考虑的,要注意区分两种性质不同的敏感性。例如,对某种持续暴露来说,选用蛋白加合物较DNA加合物作为生物学标志更敏感,因其有蓄积作用。这是选择什么样的生物学标志时所要考虑的敏感性。而确定蛋白质加合物作为生物学标志之后,就要考虑其检测方法的敏感性,由于RIA比IFA敏感,故应选前者作为标志物的检测方法。随着分子生物学技术日新月异,对核酸、蛋白质等生物大分子的检测鉴定水平大大提高,测定不同核酸序列中一个碱基、蛋白质中一个氨基酸的差异变得轻而易举,因此,流行病学工作者应用各种“组学”技术解决疾病发生、发展过程中的一系列中间事件和个体易感基因的检测和鉴定的问题,发现更有意义的生物学标志,如表2-7。
表2-7 “组学”技术用于生物学标志物的发现
5.关联性
即生物学标志和环境暴露与疾病之间存在联系,这是生物学标志能够用于解决流行病学问题的前提条件。如不存在关联,一般不考虑该生物学标志作为研究指标,如果在生物学标志与暴露或疾病之间存在剂量反应关系,表明关联性更强。但要注意这种关联性不一定是生物学的关联,而是统计学关联,研究中应予以甄别。
6.分布特性
可有多种生物材料供测定生物学标志,但对于暴露、效应及易感性生物学标志来讲,在机体的组织、细胞、体液等生物材料中的分布不尽相同,并不是每一种生物材料都能检测到理想的生物学标志,图2-2示机体内外源性化学物吸收、分布和排泄情况。另外,即使明确某些器官组织可理想表达待测生物学标志,但伦理学问题会比较突出,因此要明确了解生物学标志在血液或尿液等易获得生物材料中的分布特点,是否能很好代表靶组织、细胞的分布情况等,要考虑选择易于获得,对人体无损,能为受试者所接受的生物材料检测各类生物学标志。
图2-2 机体内外源性化学物吸收、分布和排泄
二、生物学标志的筛选原则
根据暴露-发病连续带(EDC/EHC)模型,从暴露到结局,机体会发生一系列复杂的生物学特征的变化,但具有代表性且能够作为生物学标志的可能只是其中很小一部分,EDC不同阶段的候选生物学标志的特性及其在疾病发生发展过程中的意义,甚至检测方法等都需要深入研究。应该根据研究目的探讨生物学标志与EDC进程中特定阶段暴露、效应及易感性相关问题的关联程度进行筛选。分子流行病学就是通过疾病或健康不同阶段生物学标志的测量和影响因素研究,来把握机体从健康到疾病或从暴露到发病过程中出现的各种特征性信息。
1.生物学标志选择的原则
(1)明确研究目标,从生物学事件整体考量选择生物学标志作为生物学事件的载体,可以反映从暴露到结局的各个环节特征性信息,研究者应从暴露到结局的高度去梳理生物学信息,从生物学事件的启动到结局事件发生的整体角度去思考,选择相应节点可测量的生物学标志,探讨从暴露到疾病的各个阶段生物学标志的出现和变化之间的关联,描绘出从暴露到疾病(结局)的完整的生物学故事。诚然,群体疾病与健康是纷繁复杂的生物学过程,不是一项研究就可以完整地叙述一个生物学故事,如研究者希望探讨外暴露与生物有效暴露之间的关联,在明确机体暴露于某一类有害物质的总量的前提下,选择其体内可测量到的外源性物质(如某种化学物质)或其代谢产物、或暴露物质与体内物质相互作用的产物的标志,作为内暴露标志,最后选择与靶组织细胞内DNA或蛋白质相互作用的生物学标志,即生物有效暴露标志。
(2)了解生物学标志特性,合理选择生物学标志。在选择生物学标志之前,要了解其分子特性、群体和个体变异性以及不同生物学事件组间变异性、动态变化特点及不同组织及体液的分布特性,选择具有良好的关联性、较好的敏感性和特异性的生物学标志,即所选择的生物学标志不但与内外环境暴露和疾病之间存在关联,且能真实地反映或揭示这些关联的规律。此外,所选择的生物学标志测量的重复性及稳定性俱佳,检测费用经济也是必须要考虑的。在权衡以上因素后,研究者就可以作出科学的、相对合理的或目前最优的选择。
(3)强调较高的灵敏度和特异度,特别提出生物学标志具有较高灵敏度和特异度是至关重要的选择原则,较好的灵敏度说明所选生物学标志能够客观地反映群体暴露、效应(疾病或健康相关事件)及易感性;而好的特异性则能体现所选生物学标志对非暴露、未发生疾病或健康相关事件及无明确易感性升高或降低者的正确反映程度或真实程度,是特定生命现象的特异表现,这种区分度是决定对生物学标志的流行病学意义十分重要的方面。
(4)注意生物材料获取的便利性,用于测量生物学标志的生物材料获得的难易程度,尽量选择无创且易于受检者接受的生物材料,并且这些生物材料的测量值与靶组织、细胞、分子等的生物学标志测量值相关性好,且储存方便,储存变异尽可能小。
(5)明确适宜的测定方法,具有简单、实用、规范的检测方法。
2.测量指标的选择
生物学标志的应用将暴露标志、效应标志和易感性标志的评估已经精准到了分子水平,这对客观规律的揭示可提供更有说服力的证据。如何选择合适的生物学标志开展分子流行病学研究需要结合研究目的、研究对象、生物标本的获得难易程度、生物学标志的灵敏度、特异度等具体情况确定。
(1)暴露标志的选择:
在体内检测到外源性物质或其代谢产物,不但使外源性暴露得以精确测量,而且还可以减少暴露的错分偏倚,用内暴露和生物有效暴露反映机体对外暴露物质的代谢特点,指示生物机体暴露的发生和程度,或指示靶分子、结构和细胞暴露程度。
(2)效应标志的选择:
外源性暴露导致的分子与基因水平改变的生物学标志,往往能较好地反映暴露因素的生物学效应。
(3)易感性标志的选择:
随着高通量检测技术等生物学技术的发展,GWAS策略、各种组学策略等被应用于分析疾病或健康事件的遗传易感性标志研究。目前,易感性标志的选择上包括了人类白细胞抗原(human leukocyte antigen, HLA)基因及其多态性;环境致癌物质代谢酶相关基因多态性;DNA损伤与修复基因多态性等。此外,GWAS研究发表的关于疾病或健康事件相关的SNPs、microRNA(miRNA),长链非编码RNA(long non-coding RNA, lncRNA),免疫分子、信号途径分子等也可作为机体易感性标志。
三、生物学标志的评价
从使用的角度来看,生物学标志能特异、灵敏地反映疾病状态,可用于诊断、临床进展及预后的监测。确定一个理想的生物学标志要用整体性原则来评价。
1.生物学标志特性的整体性评价
生物学标志可以是细胞的、生物化学的、免疫的或分子的改变,在生物学事件发生过程中具有各自的特性,同时生物学标志又能够用可靠和稳定的方法检测出来,所以必须对其进行整体评价。生物学标志特性的评价包括:估计标志物在人群中的频率、水平,鉴别生物学标志变化的混杂因素和效应修饰因素,确定标志物检测中实验室差异、个体内与个体间变异来源的构成。个体内与个体间变异的比率对决定样本量的大小非常重要。生物学标志检测技术的评价包括可信度、测量误差、标本的采集和处理方法、费用评价等。
2.生物学标志应用的整体性评价
生物学标志的应用也要从整体的角度来考虑,因为分子流行病学研究离不开群体和现场,既有宏观调查,又有微观检测,生物学标志只有综合使用,才能更好实现系统的整体目标。例如,在传染病的防治中,分子流行病学的研究主要应用于快速诊断、基因分型、群体遗传结构分布、主要基因克隆、序列分析以及基因工程疫苗等方面。为了实现这些目的,必须综合使用多种生物学标志,才能深入研究传染病的分布特征、流行规律,揭示疾病流行特征、暴发事件中病例与病例间、病例与接触者间、病例与对照间的内在联系,在分子或基因水平上直接阐述传染源、传播途径、流行规律和预防措施。
3.不同疾病和结局事件的生物学标志评价
不同疾病和结局事件的生物学标志评价的侧重点有所不同如肿瘤生物学标志评价侧重于取材无创,成本低廉,易于操作以及信息量大并准确,便于应用于临床对高危人群筛查,寻找易感倾向,推广早期检测,并能应用于药物治疗评判预后等实际临床问题(表2-8),目前尚没有一种生物学标志符合所有这些要求,但在选择诊断性试验时应该牢记这些要求。癌症特别是早期癌症的生物学标志迫切需要更准确的诊断能力。
表2-8 肿瘤生物学标志的理想特性
注:+不重要,++中等重要,+++非常重要,NA不适用。
*出现假阴性结果率低。
例如:理想的神经系统疾病生物学标志应具备以下特征:①应该是对活体受试者的非侵入性(或微创)检测;②结果应该是可重复的;③应该与疾病的病因或进展明确相关。血浆或血清是最方便的生物学标志的来源。然而,中枢神经系统病理过程并不总是反映在全身系统,这种生物学标志的检测大多局限于有自身免疫或代谢基础的神经系统疾病,而蛋白质组学技术适用于检测血液中神经退行性疾病的生物学标志。