ACTIVITIES学习

创新创业平台

24--有了 GREIN 数据库,挖掘 GEO 还需要学 Linux 吗【原创】

本文由医信融合团队成员“陈浩然”撰写,已同步至微信公众号“医信融合创新沙龙”与“研究生学生信”,更多精彩内容欢迎关注!

生信沙龙微信公众号 a2572a6d909e16290d985955dcc8405

在之前的推送中,已经介绍了 GEO 数据库的架构、分析流程:

1. 四文搞定 GEO 数据库转录组差异分析之简介

2. 四文搞定 GEO 数据库转录组差异分析之操作

3.GEO 的 ID 转换已经通关了

其中已经整理出了整个的分析流程

GEO 转录组数据分析流程

不同数据类型分析流程

随着芯片数据逐渐退出历史舞台,测序数据以大数据量而低信息量的姿态摆在了分析人员面前,但对于上游的数据下载、定量,质控等等操作却是以前让人头疼的一件事,常用的 windows 系统无法处理如此大量的数据,而 Linux 中,软件下载,环境配置,流程的搭建也让许多人止步于此,如何跳过这一步骤,直接获取更有价值的定量结果呢?这篇 Science Reports 或许能提供一定帮助

0

简要介绍

这篇已发表的数据库,功能十分完善,不仅包括了数据的定量,还包括了过程中的质控结果,以及后续衔接差异分析,甚至可以结果上传到 iLINCS 数据库中进行后续分析。但是,篇幅有限,本推送仅介绍作为 count 定量结果这一功能,以作为之前推送的补充。不过其他功能也在 Help 页面进行查看

1

质控筛选

就像生产车间刚出来的产品,需要质控合格后方才能流入市场。上游分析结果也并非每个都能用,质控合格后,下游分析的结果可能才更加符合实际。而如何来查看质控结果呢?

首先进入质控结果页面,以 GSE112749 为例:

1. 进入页面(http://www.ilincs.org/apps/grein/?gse=GSE112749

2. 点击QC report

标题: fig:

3. 每个样本有 1 个 fastqc 结果,所有 fastqc 结果合并为 multiQC 一共有 12 个指标,不同指标有不同的阈值。

4. 如果粗略判断的话,报告中其实已经用颜色表明(红色代表失败、黄色代表警告、绿色代表通过

5. 想要了解每个指标的作用,可以移步官网(https://multiqc.info/),在此不过多阐述

2

定量结果下载

经过了质控的样本,就可以下载 count 定量矩阵了

1. 点击Counts table

2. 点击Show counts table

3. 点击Download data

保留 gene symbol 以及质控合格的列即可进行后续分析了。

3

对于一些未定量的 GSE 怎么办

如上图所示,确实还有 3w 左右的数据仍在处理当中,如果需要分析的数据集不幸成为 1/30000,那么也有办法

标题: fig:

在方框中搜索后如果在数据库中没有处理的,会纳入到处理进程中,样本数据量小的话,一般 2-3 天就出结果,按照之前步骤下载即可。

至此,GEO 数据库转录组数据分析,不管是芯片数据,还是测序数据,基本没有难题了。

感谢您观看到最后,敬请批评指正!

图文:陈浩然

本文编辑:李晨龙



关注微信

获取电子资讯

版权所有©山西医科大学 2022

| 忘记密码
注册说明

您好!感谢您关注清华x-lab创意创新创业教育平台。

在填写之前,请确认您项目的核心团队至少有一名成员是清华的在校生、校友及教师