ACTIVITIES学习

创新创业平台

21--四文搞定 GEO 数据库转录组差异分析之简介(一)【原创】

本文由医信融合团队成员“陈浩然”撰写,已同步至微信公众号“医信融合创新沙龙”与“研究生学生信”,更多精彩内容欢迎关注!

生信沙龙微信公众号 a2572a6d909e16290d985955dcc8405

本文主要为后续的GEO挖掘与分析做铺垫,GEO数据库的入门级介绍。

官网:https://www.ncbi.nlm.nih.gov/geo/

上图为后续介绍的总体脉络,可根据此进行系统学习。

1.数据存放规律

总结版:

一次检索可以得到多个GSE

GEO Series(GSE

GSE:有着完整实验设计的研究系列,一个GSE由多个GSM组成

GEO Sample(GSM

每个GSM代表一个测序样本

GEO Platform(GPL

GSE所使用的测序平台(可以得到芯片的类型或者二代测序仪的型号)

GEO Dataset(GDS)不常用

多个GSM整合后得到GDS

啰嗦一句:GPL为芯片时,GPL的作用为注释探针(差异分析第二篇会讲);GPL为二代测序时,基本不用看。

2.数据所在位置、下载方式、下载结果的解读

1.GSE页面进入方式(2个)

(1)每个GSE都有个编号GSExxx,在官网(https://www.ncbi.nlm.nih.gov/geo/)输入GSExxx即可进入(以GSE189086)为例:

(2)也可以点击搜索页面的标题即可进入系列页面:

标题: fig:

下载:
(1)Series Matrix下载

在GSE页面的最下方有三种下载格式。(一般选择txt格式进行下载

下载后文件的解读:

下载后的txt.gz文件共包括3部分(测序数据仅包含前两个部分):

1. 研究来源信息(研究机构、研究者、发表时间、相关文献等)

2. 每个样本的characteristics(组织来源、处理方式、处理时间等)****

3. 表达谱矩阵(每列代表一个样本,每行代表一个探针,探针注释后转化为基因)*

(2)GPL下载(芯片数据用,包含芯片探针的注释信息)

GPL文件下载后的具体内容:

第一列为探针信息,最后一列为对应的基因信息

此处分为两种情况:

1. 如上图所示,gene symbol并未详细给出来的,需要使用ID转化或者正则表达式提取。

2. GPL下载后有单独一列gene symbol列,可直接用于gene注释

(3)supplementary file下载

标题: fig:

总结:

GEO中数据分布是较为系统的,但因为不同作者上传材料的完整度不同,导致分析流程也略有差异,特此整个转录组分析流程总结如下:

3.说在最后

感谢能看到最后的读者,此文为整个GEO数据库的转录组挖掘四部曲中的第一部分,可能略有粗糙,不足之处还请各位批评指正,若有相关问题可在后台留言,尽量及时解决。

图文:陈浩然

本文编辑:莫状



关注微信

获取电子资讯

版权所有©山西医科大学 2022

| 忘记密码
注册说明

您好!感谢您关注清华x-lab创意创新创业教育平台。

在填写之前,请确认您项目的核心团队至少有一名成员是清华的在校生、校友及教师