梅斯医学MedSci APP
医路相伴,成就大医

基因芯片公开数据获取、分析

Tags: 基因芯片      作者:tommyhechina 更新:2019-02-21

基因芯片公开数据很多,主要包括GEO,ArrayExpress,Ensemble数据库和Affymetrix的注释数据等,现进行简要介绍。

Gene Expression Omnibus database (GEO)是由NCBI负责维护的一个数据库,设计初衷是为了收集整理各种表达芯片数据,但是后来也加入了甲基化芯片,甚至高通量测序数据!用GEOquery从GEO数据库下载数据。

GEO数据库基础知识
  • GEO Platform (GPL) 芯片平台

  • GEO Sample (GSM) 样本ID号

  • GEO Series (GSE) study的ID号

  • GEO Dataset (GDS) 数据集的ID号 ## 用法

只需要记住三个函数,以及每个函数返回的对象该如何处理即可

getGEO/getGEOfile/getGEOSuppFiles


从GEO数据库下载数据的方法
1、在GEO DATASETS中输入关键词,选择符合的GSE,在ftp中进行手动下载

2、找到符合的GSE,在R中使用GEOquery包进行下载

GEO数据库的数据种类
1、Platforms 平台

包含有芯片的探针信息,如cDNAs,寡核苷酸,ORFs,抗体。

以GPLxxx编号。

一个platform可以包含不同人上传的不同sample。

不同platform的数据需要分开处理。

2、Samples 样品

一个以独立方式处理的样品。

以GSMxxx编号。

一个sample只能包含于一个platform,一个sample可以包含于多个series。

3、Series 系列

一个Series就是一个study。

以GSExxx编号。

一个系列一定包含多个sample,可能包含多个platform。

不同platform的数据需要分开处理。

4、Datasets 数据集

数据集包含有被summiter处理过的数据,可以使用GEO数据库自带的tools进行分析,如differentiated gene expression, cluster, heatmap。

以GDSxxx编号。

一个dataset的sample来自同一个platform,因此彼此间具有可比性。

范例
gds858 <- getGEO(‘GDS858’, destdir=“.”) ##根据GDS号来下载数据,下载soft文件

gpl96 <- getGEO(‘GPL96’, destdir=“.”) ##根据GPL号下载的是芯片设计的信息!

gse1009 <- getGEO(‘GSE1009’, destdir=“.”)##根据GSE号下载数据,下载_series_matrix.txt.gz

下载GDS返回的对象

gds858返回的对象很复杂

用Table(gds858)可以得到表达矩阵!

用Meta(gds858)可以得到描述信息

names(Meta(gds858))
Table(gds858)[1:5,1:5]
1
2
可以用 GDS2eSet 函数把它转变为 expressionset

下载GSE返回的对象

用GPLList函数查看GPL信息

处理函数有:geneNames/sampleNames/pData/exprs

用命令

gsmplatforms <- lapply(GSMList(gse), function(x) {Meta(x)$platform_id})
head(gsmplatforms)
1
2
查看GSM对应的GPL信息

用命令

gsmlist = Filter(function(gsm) { Meta(gsm)$platform_id=='GPLXX'},GSMList(gse))
1
提取GPLXX对应的样本(有些实验涉及到不同平台的样品)。

下载GPL返回的对象

根据GPL号下载返回的对象跟GDS一样,也是用Table/Meta处理!

还可以下载cel原始文件!

tmp=getGEOSuppFiles(GSE1009)
if (is.null(tmp)) {
  warning("Supplementary data files not provided!\nyou should check this GEO ID in NCBI\n")
}
1
2
3
4
对于Cel数据处理,有很多方法,例如采用R方法进行自动化处理,可以详见:
https://blog.csdn.net/love130401/article/details/18095689

除GEO外,ArrayExpress也提供基因芯片数据。
从ArrayExpress数据库下载数据的方法
1、在ArrayExpress Search中输入编号或是关键词,选择符合的Accession,在ftp中进行手动下载,或是在R中用ArrayExpress包下载。

2、使用R包ArrayExpress的queryAE命令下载搜索结果,挑选合适的Accession,在R中使用ArrayExpress包进行下载。

来源:CSDN
版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。同时转载内容不代表本站立场。
在此留言
小提示:本篇资讯需要登录阅读,点击跳转登录

相关推荐

移动应用
medsci.cn © 2020