本文由医信融合团队成员“陈浩然”撰写,已同步至微信公众号“医信融合创新沙龙”与“研究生学生信”,更多精彩内容欢迎关注!

在之前的推送中,已经介绍了 GEO 数据库的架构、分析流程:
1. 四文搞定 GEO 数据库转录组差异分析之简介
2. 四文搞定 GEO 数据库转录组差异分析之操作
3.GEO 的 ID 转换已经通关了
其中已经整理出了整个的分析流程

GEO 转录组数据分析流程

不同数据类型分析流程
随着芯片数据逐渐退出历史舞台,测序数据以大数据量而低信息量的姿态摆在了分析人员面前,但对于上游的数据下载、定量,质控等等操作却是以前让人头疼的一件事,常用的 windows 系统无法处理如此大量的数据,而 Linux 中,软件下载,环境配置,流程的搭建也让许多人止步于此,如何跳过这一步骤,直接获取更有价值的定量结果呢?这篇 Science Reports 或许能提供一定帮助

0
简要介绍
这篇已发表的数据库,功能十分完善,不仅包括了数据的定量,还包括了过程中的质控结果,以及后续衔接差异分析,甚至可以结果上传到 iLINCS 数据库中进行后续分析。但是,篇幅有限,本推送仅介绍作为 count 定量结果这一功能,以作为之前推送的补充。不过其他功能也在 Help 页面进行查看

1
质控筛选
就像生产车间刚出来的产品,需要质控合格后方才能流入市场。上游分析结果也并非每个都能用,质控合格后,下游分析的结果可能才更加符合实际。而如何来查看质控结果呢?
首先进入质控结果页面,以 GSE112749 为例:
1. 进入页面(http://www.ilincs.org/apps/grein/?gse=GSE112749)
2. 点击QC report

3. 每个样本有 1 个 fastqc 结果,所有 fastqc 结果合并为 multiQC 一共有 12 个指标,不同指标有不同的阈值。
4. 如果粗略判断的话,报告中其实已经用颜色表明(红色代表失败、黄色代表警告、绿色代表通过)

5. 想要了解每个指标的作用,可以移步官网(https://multiqc.info/),在此不过多阐述
2
定量结果下载
经过了质控的样本,就可以下载 count 定量矩阵了
1. 点击Counts table
2. 点击Show counts table
3. 点击Download data


保留 gene symbol 以及质控合格的列即可进行后续分析了。
3
对于一些未定量的 GSE 怎么办

如上图所示,确实还有 3w 左右的数据仍在处理当中,如果需要分析的数据集不幸成为 1/30000,那么也有办法


在方框中搜索后如果在数据库中没有处理的,会纳入到处理进程中,样本数据量小的话,一般 2-3 天就出结果,按照之前步骤下载即可。
至此,GEO 数据库转录组数据分析,不管是芯片数据,还是测序数据,基本没有难题了。
感谢您观看到最后,敬请批评指正!
图文:陈浩然
本文编辑:李晨龙