找回密码
 立即注册
搜索
yeec近年来原创帖合集 本站基础知识下载汇总 yeec网站学习币充值链接 学习中心正式上线

[转帖]通过综合数据挖掘发现新的产前唐氏综合症血清生物标志物

[复制链接]
郑振寰 发表于 2010-12-12 09:44 | 显示全部楼层 |阅读模式

注册登录才能更好的浏览或提问。

您需要 登录 才可以下载或查看,没有账号?立即注册

×

Jeroen L. A. Pennings1*, Maria P. H. Koster2, Wendy Rodenburg 1, Peter C. J. I. Schielen2, Annemieke de Vries 1
1
荷兰Bilthoven,卫生防护研究实验室(GBO),国家公共健康和环境保护研究所(RIVM);
2 荷兰Bilthoven,感染性疾病和产期筛查实验室(LIS),国家公共健康和环境保护研究所(RIVM)

摘要

背景:为了帮助在产前唐氏综合症筛查中通过实验室搜寻到新的母亲血清生物标志物,我们的目标是利用数据挖掘技术建立一系列的候选生物标志物。
方法血/重要发现:因为当前的筛查标志物或来自胎儿肝脏,或来自胎盘滋养层,所以我们推断新的生物标志物可能主要是从这两个组织中找到。通过对来自不同资源的公共可获得数据应用三级筛选策略,我们鉴别出了49种潜能性血液检测蛋白质生物标志物。我们发现的一系列标志物包括三种目前被广泛应用在早期或中期筛查中的生物标志物,同时包含其他十种被或已经被用作产前筛查标志物的蛋白质。结果支持我们政策的有效性,且提示该系列物质含有其他可能用于筛查的标志物。
结论/意义:我们希望结果能帮助支持未来实验室对新的母亲血液中唐氏综合症筛查标志物的研究。

前言

孕妇接受唐氏综合征(DS)产前筛查已有二十多年。筛查的程序通常包括建立在目前血清测量和像颈部透明带及母亲年龄等参数基础上的风险评估。进行完评估后,结果提示高风险的女性可以选择侵入型检测,如羊膜穿刺术或绒毛膜绒毛取样检测。最初,风险评估应用最广泛的方法是中期三倍体检测,其中该检测将甲胎蛋白(AFP)、非耦联雌三醇(uE3)和人类绒毛膜促性腺激素的游离β亚基(fβ-hCG)的血清水平与母亲年龄进行了联合[1,2] 。近年来,该检测在很大程度上已被早期的联合检测逐渐替代,早期检测是建立在fβ-hCG、妊娠相关性血浆蛋白A(PAPP-A)血清浓度、超声颈部透明带(NT)测量和母亲年龄基础上的[3] 。后者检测是目前荷兰孕妇能获得的筛查方法。

尽管国际上都在努力改善DS筛查效果,但检出率(DR)和假阳性率(FPR)依然能都被提高。在荷兰,目前的DS筛查DR是75.9%,FPR是3.3%[4] 。该领域的大多数研究注意力都集中在新的生物标志物的探索中,而新的标志物的血清水平能够添加到风险计算表中。近年来,大规模蛋白质定量的蛋白质组学方法已经被用于帮助搜索该类生物标志物[5-10] 。然而,该类研究获得的候选生物标志物的性能通常都不是复现性的,且已建立的DS妊娠生物标志物在该类研究中通常不会成功被确认,原因可能与技术敏感性和复现性有关。

我们最近进行的一项研究采用了磁珠型多路复用免疫测定法针对DS妊娠和控制检测了早期母亲血清样本中的90种不同的分析物[7] 。该研究鉴定出了7种新的潜能生物标志物,这些标志物能使早期风险评估更加准确,同时确定了早已了解的PAPP-A的有用性。该系列中的90种分析物无妊娠或DS特异性,但是以先前确定的商业用检测物系列为基础的。我们推断使用与妊娠或DS更加相关的这一系列能发现更多且更加具有特异性的生物标志物。因此,我们计划通过对公共可得数据的分析和整合建立一个这样的标志物系列。

数据库中有关基因和蛋白质的信息数量正在逐渐增加,允许我们采用涉及到自动收集和结合生物学数据库中信息的生物信息学方法,即所知的数据挖掘。最近采用数据挖掘鉴定血液型癌症生物标志物的研究表明了该方法的有效性[11,12]

目前的DS筛查蛋白质生物标志物能被追溯到来源于两种组织:即胎儿肝脏(如AFP)和胎盘(如fβ-hCG、PAPP-A)。常规用于中期筛查的uE3是胎盘从其前体脱氢表雄酮表面产生的,而前体脱氢表雄酮表面来自于胎儿的肾上腺和肝脏[13,14] 。胎盘标志物更具体地说是来自滋养层细胞的标志物,与胚胎移植到子宫内膜和确立、维持妊娠所需要的激素的分泌有关。事实上,已在DS孕妇的胎盘中观察到异常滋养层分化现象[15,16] 。因当前所有的筛查标志物都是来自之前提到的两个组织(如,胎儿肝脏和胎盘滋养层细胞)中,我们假设一些新的标志物会主要从这两种组织中被发现。为了确定这些蛋白质标志物,我们结合了几个公共可获得资源中的数据。

方法

组织特异性基因表达数据的分析
采用Symatlas web-interface(https://symatlas.gnf.org)根据Su等[17,18]先前公布的数据对人类组织特异性基因表达数据进行分析。Symatlas数据被认为是该项研究中最重要的信息,因为其为多种组织提供大量的公共可获得数据收集,包括成年和胎儿组织。采用的组织数据都来自人类基因Atlas GNF1H(gcRMA正常化)(79个组织)和人类基因Atlas U95A(44个组织)。利用web-interface,这些数据集合按照不同的严格水平对胎儿肝脏和胎盘中高度表达的基因数量质疑。该类严格水平包括靶向组织(在我们的案例中是胎盘或胎儿肝脏)中表达的基因的最小比例,并与检查的所有组织中基因的平均表达水平进行比较。采用不同的严格水平,检测了胎儿肝脏和胎盘每个严格水平上获得的组织特异性基因数量。将生成的数据输入到同期项目R(www.r-project.org) [19]中,且评估数据分布来确定较低严格水平上的非特异性潜在趋势。这表明对下辨别阈来说该趋势接近指数分布,阈值增加两倍导致阈值之上基因表达的数量增加四倍。我们将这种趋势定义为非特异性潜在趋势。对于较高性严格水平来说,较慢速率上的基因数量开始下降,提示组织特异性基因超过该非特异性趋势而得到改进。基于该项发现,设置一个阈值。该阈值产生的组织特异性基因比非特异性潜在趋势产生的基因大约多10倍。换句话说,在较低严格水平上采用非特异性基因趋势,选择的严格阈值要足够高,从而认为胎儿肝脏或胎盘中高度表达的90%的基因明确来自这一组织而不是一个统计人工制品。这些基因用于随后的分析步骤中。采用同样的方法来丰富胎儿肝脏特异性基因,并与成年肝脏特异性基因进行对比。

文字挖掘
因文字挖掘仍然是一个处于发展中的领域,我们想通过一种以上的文字挖掘工具来限制假阳性的概率。基于此原因,联合了两种应用程序,其中两种程序采用不同的方法来搜寻局部不同的数据库,从而使得两种方法具互相补充。第一种是Anni(https://www.biosemantics.org/anni/) [20],为Medline和几种生物医学概念(如基因、药物和疾病)检索协会提供一个领域型和知识宝库型界面。给予这些概念一个权重,提示他们与所应用搜索术语的相关性。第二种方法是Polysearch(https://wishart.biology.ualberta.ca/polysearch) [21],为不同的文本类型、文献摘要或生物信息学数据库提供不同的信息检索问题分类,其中生物信息学数据库有PubMed、OMIM、DrugBank、SwisssProt、人来代谢组数据库(HMDB)、分类蛋白质参考数据库(HPRD)和基因协会数据库(GAD)。所获得的基因或蛋白质的相关性分数并表示为Z分数,如标准差高于平均数。两种应用程序来搜索与基因有关的术语“滋养层”、“细胞滋养层”及“合胞体滋养层”。Anni的重要意义标准以统计学确定的权重分布的至少十倍以上压缩为基础。对于PolySearch来说,在软件文档基础上采用Gaussian分布。联合通过以上三种术语搜索到的基因列表,随后人工调整解决模糊不清或重复的基因标志。

图1.数据挖掘策略及每个步骤后选择的基因数量的步骤原理图

评估血液检测的适用性
为了确定基因表达分析和/或文字挖掘鉴别的假定生物标志物有血液可检测潜能,他们反复交叉核对了两种不同的数据资源。如果蛋白质至少具备基因存在论(GO)注释术语“细胞外区域”、“细胞外区域部分”或“细胞外空间”中的一种或如果它们包含在人类血浆蛋白质组(HPP),则认为该蛋白质具备血液可检测性。GO(https://www.geneontology.org) [22]注释部分是建立在计算机提示上的,而HPP列表[23]则是以经验性方法论的组合为基础。后一种方法显示出了基因存在论(GO)没有预测到的一些血液可检测性蛋白质,但其缺少一些包括蛋白质激素在内的低含量蛋白质[23]。与文字挖掘工具一样,这些方法被认为是相互补充,且结果被联合在一起。

结果

组织特异性候选基因的鉴定
目前早期联合检测或中期三倍体检测中使用的DS筛查生物标志物来自于两种组织,即胎儿肝脏和胎盘滋养层。因此,数据挖掘方法中第一个步骤包括识别在这两种组织的任何一种中表达的基因(见图1各种各样选择步骤的概观)。

组织相关基因表达资源Symatlas用于搜寻在胎儿肝脏或胎盘中表达的基因,搜索水平是全部组织中基因中等表达水平的倍数(用户自定义)。通过采用各种阈值水平和统计学分析,我们发现当基因表达阈值是平均组织表达水平的30倍时,Symatlas查询鉴别出的基因比在非特异性趋势基础上鉴定出的基因多10倍。这中情况对胎儿肝脏和胎盘都适用。因此,我们采用这种标准来选择对这些个体组织有高度特异性可能性的基因。该方法得出158种胎儿特异性蛋白质和229种胎盘特异性蛋白质(图1)。

应用附加的相关性标准
第二个步骤包括进一步优化我们的基因序列,方法是通过保证第一个步骤中个选择的基因不仅要高度表达,也要对涉及的组织有足够的相关性。在胎儿肝脏特异性基因的例子中,我们再一次应用Symatlas来保证胎儿肝脏中的基因表达水平至少要超过成年肝脏水平的十倍,从而将列表从158个缩减到51个基因(图1)。对于胎盘特异性基因,我们采用的是两种互补文字挖掘工具(Anni和Polysearch)来选择与三种相关滋养层(滋养层、细胞滋养层、合胞体滋养层)搜索条目有关的基因。对于Anni来说,选择的基因权重>0.0001(以比非特异性分布获得10倍多的结果为依据);Polysearch基因Z值>1.6,至少选择一个条目。通过采用这种方法,发现181个基因,其中的50个基因还发现与之前选择的229个胎盘特异性基因重叠(图1)。我们对这两种组织应用了不同的筛选方法,因为Symatlas不包括对滋养层或它的两种亚型有特异性的基因表达数据;而文字挖掘不能区分与胎儿或成年肝脏有关的蛋白质。

随后分析了51种胎儿肝脏特异性基因和50种滋养层相关基因在血液中的可检测性。

血液可检测性标志物的选择
对常规人类筛选项目中生物标志物的应用,最基本的是该标志物能在血清或血浆中检测到。对先前步骤中选择出的标志物来说,我们调查了哪一种在细胞外有基因存在论注释,或哪一种是实验上来自Anderson等[23]编辑的人类血浆蛋白质组的一部分。该最后的选择步骤获得49个个体血液可检测性标志物(图1,表1)。胎儿肝脏和胎盘的基因数量分别是19个和31个,其中IGF2是两者共有的(图1,表1)。

表1 鉴定的候选唐氏综合症(DS)生物标志物



讨论

本研究的目的是通过计算机数据挖掘技术为产前DS筛查设计一系列新的潜在血液可检测性生物标志物,而这些新的生物标志物与当前可获得的商业用多倍试剂盒或整个蛋白质组学分析的高处理能力方法相比更能集中在DS筛查上。通过将不同数据资源的数据结合到一个三步骤方法上,我们鉴别出了49种这样的蛋白质标志物(表1)。我们的联合列表包括三种目前在早期或中期DS筛查中广泛应用的生物标志物,是AFP、PAPP-A和fβ-hCG。结果表明我们所采用的方法能够鉴定出相关的DS筛查生物标志物。除此之外,该列表还包含了一些其他已被检测为具有DS筛查生物标志物可能性的蛋白质,如抑制素链INHA和INHB[24-27] 、(同一蛋白质)胎盘催乳素基因CSH1和CSH2[28] 、胎盘生长因子(PGF)[32] 、IGFBP1[30] 、或PP13(LGALS13)[33] 。对于这些蛋白质中的五种(INHA、CSH1、CSH2、GH2、PGF)来说,他们在DS和整倍体妊娠的情况下浓度明显不同,因此能被用作DS筛查中的一个生物标志物。此外,有两种胶原性的标志物COL1A1和COL3A1(以及IGFBP1)已被描述为在DS妊娠中有不同的羊膜水水平[10] ,而且虽然还未得到证实,但相信该物质也能被用于相应的母亲血清水平中。

虽然AFP、PAPP-A和fβ-hCG被鉴定为DS筛查生物标志物,但我们的方法没能鉴定出中期生物标志物非耦联雌三醇(uE3)。然而,uE3不是一种蛋白质生物标志物,所以我们基于基因表达和蛋白质数据集合的策略不支持该物质。我们的方法没能鉴别出但已在文献中有所描述的另一种生物标志物是ADAM12。这种蛋白质在胎盘和细胞外都能高度表达,但不符合文字挖掘步骤中的标准。不过应该注明的是,最近很多研究发现这种生物标志物仅在妊娠前10周有意义,所以这种蛋白质的应用受到限制[34-38] 。两种互补文字挖掘方法未能发现ADAM12与滋养层相关联足够证据的发现既能说明目前文献数据库仅能提供较少关联根据,也能说明两种文字挖掘工具在检测现存关联上是不成功的。因为文字挖掘是一个正在发展的领域,所以选择两种方法是合理的。因此对未来该类研究的建议可能包括依据附加研究搜索算法。

表1中的49种蛋白质中,能够观察到一些生物进程中的过度表达。肝脏来源基因中,五种胶原基因是最明显的,但也有一些与先天免疫相关的蛋白质,如C5、PF4、PPBP、S100A8和S100A9。这些免疫学蛋白质可被归于胎儿肝脏在胎儿造血过程中的中心作用。对于来自胎盘滋养层的蛋白质来说,大部分作用是激素或生长因子,而且此外四种蛋白质(PLAU、SERPINB2、SERPINE1、TIMP3)参与组织的重构。这些过程都与胎盘滋养层在激素产生中的角色有关,其中的激素是建立和维持妊娠以及将胚胎移植到子宫内膜内所需要的。假设鉴定出的标志物中大部分与小量生物进程有关,则这些路径入侵其他潜能DS筛查标志物可能成为现实,其中潜能DS筛查标志物不满足我们方法中采用的标准或无法获得足够的数据。

因唐氏综合症是由21染色体三倍体(局部)引起的,表1中标志物没有一个位于21染色体看起来是违反直觉的。尽管可能预测该染色体上的基因与其他基因相比大约在高出1.5倍的水平上表达,因此能充当稳定性生物标志物,但该假设在比较研究不能受控制 [39-41] 。而且,包括我们自己在内的蛋白质组学研究没有在不同表达的蛋白质中发现21染色上蛋白质的存在[5-10] 。此外,尽管部分21染色体三倍体足以说明DS,但将DS与较小染色体区域相联系的努力已经排除了单独区域为所有表现型方面负责的可能性[42-45] 。另外,还发现DS表现型的一些特征有其他的异倍体类型,提示21染色体上基因的较高表达仅仅间接地域DS表现型相关联,主要是通过基因对其他染色体的失调起作用。这也能够解释为什么当前的DS筛查生物标志物不存在于21染色体上以及使用的妊娠筛查标志物也能预测其他染色体异常,如爱德华兹综合征(18染色体)和帕韬氏综合症(13染色体)。这实际上创造了一种可能性,即表1中涉及的标志物中有一些不仅能应用于DS筛查,也能用于有其他胎儿异倍体型的妊娠筛查中。

通过整合数据挖掘方法,我们推断出了一个候选唐氏综合症筛查生物标志物系列。因前两个筛选步骤都是基于至少超过相关背景10倍压缩或归纳,我们预测假阳性(如非相关性标志物)的数量是较低的。这一结果可由我们系列中八种蛋白质的存在来证明,其中这八种蛋白质正或能被用作DS筛查的生物标志物,而其他5种蛋白质已被研究过。然而,在大型队列研究中检测这些生物标志物之前,需要额外的血清分析实验来验证这些候选生物标志物中哪些在DS和正常妊娠中有不同的水平。而且,我们无法提前预测正常和DS妊娠中什么样的胎龄生物标志物是最具差别的,而且作为结果,不知他们能否被整合到晚早期或早中期筛查中。如果证明不是这种情况,则新的生物标志物用于常规、大规模人群筛查项目时(如在荷兰的应用)的稳定性是相对比较低的。我们的数据挖掘方法鉴定的新DS筛查生物标志物的进一步实验性确认将明显成为今后后续研究的主题。

摘自:www.plosone.org

看贴要回是本分,有问必答是人才,解决问题回贴是公德.
医疗设备维修.维修咨询(请尽可能在论坛提问),协助维修,上门服务.
电话:13991827712

yeec维修网视频培训资料购买链接
BeckmanCoulter DXA系列培训资料
Ortho VITROS 系列培训资料
Ortho enGen_ThermoFisher TCA 实验室自动化系统培训资料
Roche Cobas 实验室自动化系统培训资料
Roche Cobas modular系列分析仪培训资料
Horiba-ABX Yumizen系列培训资料
DiaSorin Liaison系列培训资料
Advia2120培训资料
Inpeco-Aptio系列培训资料
Atellica Solution系列培训资料
Siemens Immunoassay系列培训资料 西门子化学发光系列
SIEMENS Advia系列培训资料 西门子生化系列
Toshiba/Abbott系列培训资料 东芝雅培生化系列
Abbott Architect 系列培训资料 雅培生化化学发光系列
ACL TOP 系列培训资料 沃芬TOP血凝系列
BeckmanCoulter Immunoassay系列培训资料 贝克曼化学发光系列
BeckmanCoulter DXH 系列培训资料 贝克曼DXH血球系列
BeckmanCoulter自动样品处理系统介绍性培训资料 贝克曼前后处理流水线系列
BeckmanCoulter AU系列培训资料 贝克曼AU生化系列
BeckmanCoulter DXC系列培训资料 贝克曼DXC生化系列
LaboSpect003/008/AS 7100/7180分析仪培训资料
Horiba-ABX系列培训资料 Horiba-ABX血球系列
Sysmex 血凝系列培训(CA/CS)
Sysmex 尿液分析系列培训(UF1000/5000/UC3500)
Sysmex 血球系列培训(KX21/POCH/XS/XT/XE)
Sysmex XN系列培训(XN-L/XN1000/XN2000/XN3000/XN9000)
Sysmex HISCL系列培训
可直接淘宝店铺购买https://yeec.taobao.com,或咨询手机/微信:13991827712,QQ:67708237
 

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|申请友链|手机版|小黑屋|加入QQ群|yeec维修网

GMT+8, 2025-1-2 22:38 , Processed in 0.618846 second(s), 33 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表