本文由医信融合团队成员“陈浩然”撰写,已同步至微信公众号“医信融合创新沙龙”与“研究生学生信”,更多精彩内容欢迎关注!


本文主要为后续的GEO挖掘与分析做铺垫,GEO数据库的入门级介绍。
官网:https://www.ncbi.nlm.nih.gov/geo/

上图为后续介绍的总体脉络,可根据此进行系统学习。
1.数据存放规律

总结版:
一次检索可以得到多个GSE
GEO Series(GSE)
GSE:有着完整实验设计的研究系列,一个GSE由多个GSM组成
GEO Sample(GSM)
每个GSM代表一个测序样本
GEO Platform(GPL)
GSE所使用的测序平台(可以得到芯片的类型或者二代测序仪的型号)
GEO Dataset(GDS)不常用
多个GSM整合后得到GDS
啰嗦一句:GPL为芯片时,GPL的作用为注释探针(差异分析第二篇会讲);GPL为二代测序时,基本不用看。
2.数据所在位置、下载方式、下载结果的解读
1.GSE页面进入方式(2个)
(1)每个GSE都有个编号GSExxx,在官网(https://www.ncbi.nlm.nih.gov/geo/)输入GSExxx即可进入(以GSE189086)为例:

(2)也可以点击搜索页面的标题即可进入系列页面:

下载:
(1)Series Matrix下载
在GSE页面的最下方有三种下载格式。(一般选择txt格式进行下载)

下载后文件的解读:
下载后的txt.gz文件共包括3部分(测序数据仅包含前两个部分):

1. 研究来源信息(研究机构、研究者、发表时间、相关文献等)

2. 每个样本的characteristics(组织来源、处理方式、处理时间等)****

3. 表达谱矩阵(每列代表一个样本,每行代表一个探针,探针注释后转化为基因)*

(2)GPL下载(芯片数据用,包含芯片探针的注释信息)

GPL文件下载后的具体内容:

第一列为探针信息,最后一列为对应的基因信息
此处分为两种情况:
1. 如上图所示,gene symbol并未详细给出来的,需要使用ID转化或者正则表达式提取。
2. GPL下载后有单独一列gene symbol列,可直接用于gene注释

(3)supplementary file下载

总结:
GEO中数据分布是较为系统的,但因为不同作者上传材料的完整度不同,导致分析流程也略有差异,特此整个转录组分析流程总结如下:

3.说在最后
感谢能看到最后的读者,此文为整个GEO数据库的转录组挖掘四部曲中的第一部分,可能略有粗糙,不足之处还请各位批评指正,若有相关问题可在后台留言,尽量及时解决。
图文:陈浩然
本文编辑:莫状