ACTIVITIES学习

创新创业平台

43--数据分析前的注意事项【原创】

本文由医信融合团队成员“张皓旻”撰写,已同步至微信公众号“医信融合创新沙龙”与“表观精准治疗”,更多精彩内容欢迎关注!

生信沙龙微信公众号

数据分析前还有许多要注意的事情,这些细节往往决定了数据分析的准确性及可信性。现在此一一列出,以供参考,详细解读随后逐步完善。

1. 首先要明确数据使用什么测序仪测的,这可以帮助明确接头和序列长短,以及建库方式;

2. 核糖体 RNA 含量。核糖体 RNA 含量过高会影响后期比对率,导致比对率偏低;

3. 建库方式。是否为链特异性建库,很多软件对于链特异性数据及非链特异性数据的参数有所不同,而对于数据是否为链特异性的检验可以通过 RSeQC 来实现,具体方法随后文章介绍;

4. 数据是单端还是双端。目前市场上正规测序公司测得的 RNA-seq 数据大多是双端数据(pair-end),但也不乏有个别研究人员进行单端(single-end)测序。此外所有软件对于单双端数据都有不同的设置参数,因此明确测序方式对后续分析尤为重要;

5. 物种。明确数据物种至关重要,这一点对于每个进行 RNA-seq 分析的研究人员来说无需多言;

6. 参考基因组及参考转录组的使用。对于参考基因组及参考转录组的内涵需要有明确认知,此外对于何时需用参考基因组、何时需用参考转录组,也是每一个分析人员需要明确的。具体的使用与软件和分析目的有关,我将在后续的软件及各个分析环节中提及;

7. 数据量。数据量影响了后续每一个步骤的分析速度,这也帮助确定是否需要使用多线程分析,当然有条件可以使用最大资源运行每一步;

8. 其他注意事项欢迎大家评论区帮助补充......

图文:张皓旻

本文编辑:李晨龙



关注微信

获取电子资讯

版权所有©山西医科大学 2022

| 忘记密码
注册说明

您好!感谢您关注清华x-lab创意创新创业教育平台。

在填写之前,请确认您项目的核心团队至少有一名成员是清华的在校生、校友及教师