表达谱芯片数据深入挖掘方法简介

Tags: 芯片数据作者：MedSci 更新：2014-01-03

表达谱芯片数据分析除了可以进行常规分析如Gene ontology 分析和Pathway分析等之外，还可以利用生物信息学软件从芯片数据中发掘更多具有深层次生物学意义的信息。目前数据深入挖掘技术主要包括：标志物预测分析（Prediction analysis for microarray）和基因网络关系分析（Gene network analysis）。这些数据分析方法同样也能应用于甲基化芯片结果和miRNA预测靶基因结果的深入挖掘。

1. 标志物预测分析（Prediction analysis for microarray）

多年以来，为了提高对肿瘤或其他疾病的早期检测，鉴别诊断，疗效观察，以及预后判断，人们从肿瘤细胞的化学特性，细胞病理、免疫反应和基因表达产物等诸多角度，试图寻找各种特异性强，灵敏度高的分子标志物。但由于技术手段所限，寻找分子标志物的工作繁琐棘手，而且准确率一直不理想。我们采用Prediction Analysis for Microarrays（PAM）分析工具，可以最终对芯片数据进行处理，筛选出最小数目的分子标志物。相对于传统方法，PAM方法筛选出的分子标志物准确性高，可靠性强。

Example

2002年，荷兰的一个实验室通过对78个乳腺癌病例5000个差异基因分析发现这些基因可以较为准确区分乳腺癌预后情况，通过PAM算法，筛选得到70个与乳腺癌预后相关的分子标志物，这70个基因可以准确判断乳腺癌术后病人的预后情况，基于这 70个基因，通过大样本验证及临床验证，2007年诞生了世界上第一款经过FDA认证可用于临床诊疗的表达谱芯片。

2. 基因网络关系分析（Gene network analysis）

除了信号通路和基因集合的角度，我们还将从基因网络关系角度去揭示芯片数据深层次的生物学意义。康成生物引入美国著名生物信息学公司开发的软件Pathway Studio帮助我们的客户分析实验结果。Pathway Studio以丰富的基因调控关系数据库为基础，结合多种数学检验方法，可以根据需要完成关键基因的识别，pathway的富集分析，指定基因的调控网的扩展等等诸多功能。

由于基因调控网络的复杂性，分析过程需要客户与我们的分析人员的交互，最终得到客户认为有价值的联系，并绘制可直接用于发表的调控网络图。下面简单列举Pathway Studio的基本功能。

数据要求：已知类型的样本，每组类型样本数量大于3个。

Example1―― pathway分析

将两组白血病（急性淋巴性白血病ALL和急性髓性白血病AML）各24样本芯片数据导入pathway studio，使用pathway分析功能，可以迅速找出有富集的pathway，并且输出每条pathway的网络关系图。

a.富集的pathway列表：

“#…”列表示在芯片中识别的pathway的成员个数；“overlap”列表示有差异表达的 pathway成员个数；“overlapping entities”列出了overlap的基因名称；“p-value”表征pathway的富集程度，p-value越小，富集越显著。

b. 富集pathway的网络关系图（以T-cell receptor->ATF/CREB通路为例）：

图中综合的信息包括：差异表达、细胞定位、蛋白类型和网络关系等，使研究者一目了然，非常方便研究者做功能分析。

红色代表在ALL样本中上调，蓝色代表下调，颜色越深，差异表达越高；其它信息注释见图例。由此图可以看出与AML样本相比，ALL样本中T-cell receptor->ATF/CREB通路被激活。

Example2―― 关键基因分析
Pathway studio还可以从差异表达基因中找出在他们共同的调控基因。正是这些关键基因的改变，才导致众多下游基因的表达变化，维持细胞表型。找出这样的关键基因，对研究工作的进展有重要意义。

NIH癌症研究中心的研究人员使用15个含有异形增生结节（Dysplastic Nodule）组织样本与10个早期肝细胞癌（Hepatocellular Cacinoma）样本的460差异表达基因，借助Pathway Studio工具，找到了可能在人类肝脏癌变中发挥重要作用的基因MYC，如下图。

红色代表在HCC中上调，绿色代表下调。

若仅从芯片数据角度来看，MYC基因未发生显著的差异表达。但利用Pathway Studio分析计算出受MYC调控的下游基因大部分发生了显著的差异表达，这暗示MYC在肝脏癌变中发挥作用的方式可能发生在翻译或翻译后修饰水平上。此发现为科研人员接下来的研究提供了参考方向。

3. Cytoscape 分析

a. 差异表达基因与蛋白-蛋白相互作用(protein-protein interaction, PPI)网络的关联

我们通常在（表达谱）芯片分析后得到大量的差异表达基因。利用Cytoscape软件及其插件，能够获取这些差异表达基因之间，或差异表达基因与其它相关联基因的蛋白-蛋白相互作用网络。

我们利用Cytoscape插件整合目前网络上主流的几个蛋白相互作用数据库（BIOGRID, INTACT, MINT, DIP, BIND, HPRD）的数据，对于我们感兴趣的基因给出相关的蛋白相互作用网络。分析时使用的PPI数据是经过实验验证的，针对几个模式生物，包括拟南芥，秀丽线虫，果蝇，人，小鼠，大鼠，酿酒酵母，粟酒裂殖酵母。

举例来说：

以下是在人的表达谱芯片分析中得到的556个差异表达基因（Fold Change>=1.5, P-value<=0.05）的一部分，包括GeneSymbol，Fold Change，P-value<=0.05三列。

对于这556个基因，利用cytoscape及其插件分析后，获得了一个由1792个节点及8320条边组成的蛋白-蛋白相互作用网络。粉红色的节点代表差异表达基因，蓝色的节点是这些差异表达基因的第一步邻居蛋白/基因。两个节点间的边表示它们相互作用。图中孤立的节点表示没找到与其作用的蛋白。

b. 蛋白-蛋白相互作用网络中的核心基因

利用Cytoscape的插件，对我们以上得到的PPI网络分析其中的核心基因。对于网络中的基因计算其各种图形理论参数，包括Degree, BottleNeck, EPC, MNC，DMNC，DSS和MCC。这些利用不同算法计算出的参数，从不同方面反映了节点在整个网络中的地位。

举例说明：

通过DSS值排序得到的前十位的关键基因有：DIS3, STXBP3, MPP6, PGF, FCER1G, POP7, RHOG, ESRRG, SNRPB2, ACTA2.

这十个关键基因和它们的邻居节点组成了一个包括64个节点和171条边的子网络，如下所示。图中黄色的节点表示关键基因。

来源：MedSci原创

版权声明：
本网站所有注明“来源：梅斯医学”或“来源：MedSci原创”的文字、图片和音视频资料，版权均属于梅斯医学所有，非经授权，任何媒体、网站或个人不得转载，授权转载时须注明“来源：梅斯医学”。本网所有转载文章系出于传递更多信息之目的，且明确注明来源和作者，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。同时转载内容不代表本站立场。
在此留言

小提示：本篇资讯需要登录阅读，点击跳转登录

表达谱芯片数据深入挖掘方法简介

相关推荐