本文由医信融合团队成员“张皓旻”撰写,已同步至微信公众号“医信融合创新沙龙”与“表观精准治疗”,更多精彩内容欢迎关注!

数据分析前还有许多要注意的事情,这些细节往往决定了数据分析的准确性及可信性。现在此一一列出,以供参考,详细解读随后逐步完善。
1. 首先要明确数据使用什么测序仪测的,这可以帮助明确接头和序列长短,以及建库方式;
2. 核糖体 RNA 含量。核糖体 RNA 含量过高会影响后期比对率,导致比对率偏低;
3. 建库方式。是否为链特异性建库,很多软件对于链特异性数据及非链特异性数据的参数有所不同,而对于数据是否为链特异性的检验可以通过 RSeQC 来实现,具体方法随后文章介绍;
4. 数据是单端还是双端。目前市场上正规测序公司测得的 RNA-seq 数据大多是双端数据(pair-end),但也不乏有个别研究人员进行单端(single-end)测序。此外所有软件对于单双端数据都有不同的设置参数,因此明确测序方式对后续分析尤为重要;
5. 物种。明确数据物种至关重要,这一点对于每个进行 RNA-seq 分析的研究人员来说无需多言;
6. 参考基因组及参考转录组的使用。对于参考基因组及参考转录组的内涵需要有明确认知,此外对于何时需用参考基因组、何时需用参考转录组,也是每一个分析人员需要明确的。具体的使用与软件和分析目的有关,我将在后续的软件及各个分析环节中提及;
7. 数据量。数据量影响了后续每一个步骤的分析速度,这也帮助确定是否需要使用多线程分析,当然有条件可以使用最大资源运行每一步;
8. 其他注意事项欢迎大家评论区帮助补充......
图文:张皓旻
本文编辑:李晨龙