ACTIVITIES学习

创新创业平台

44--参考基因组下载【原创】

本文由医信融合团队成员“张皓旻”撰写,已同步至微信公众号“医信融合创新沙龙”与“表观精准治疗”,更多精彩内容欢迎关注!

生信沙龙微信公众号

进行转录组分析前,准备好参考基因组文件是非常必要的。在临床医学研究中最常见的三个物种就是人、大鼠、小鼠。

参考基因组可以在 ensembl 数据库中获取

点击画红框位置可以下载人类和小鼠的参考基因组。

首先下载人类基因组及注释文件

有很多基因组文件,我们选择 primary。至于为什么选择 primary,简单解释一下。

ENSEMBL 会存储在多种形式 fasta 文件:

首先根据组装的不同分为:

• .toplevel - Includes haplotype information (不知道比对软件工具如何处理)

• .primary_assembly - Single reference base per position

其实根据对序列的处理不同分为:

• dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)

• dna_rm - Repeats masked (converts repeats to N's)

• dna - No masking

Repeat Masking?

在 NGS 处理过程中,事实上我们并不需要使用一个标记重复区域的基因组。标记重复的基因组会用 N 代替重复区域,而这就给后续的比对带来很大的问题,所以要避免使用 dna_rm - Repeats masked (converts repeats to N's) 的参考基因组。而 dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase) 虽然也标记出了参考基因组,但是以小写的形式存在的,故对比对没有影响。
这个问题问完了,dna_rm - Repeats masked 出局,余下两者进入下一个问题。

Primary or Toplevel?

简单的回答就是说请选择的 primary 版本,因为 toplevel 版本会包含 haplotype 信息,多余的信息会增加比对工具的工作,所以这里选择 primary 就可以完成你的工作。

使用以下命令下载即可

##人
nohup wget http://ftp.ensembl.org/pub/release-104/gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz & ##下载基因注释
nohup wget http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz & ##下载参考基因组
nohup wget http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh38.cdna.all.fa.gz & ##下载参考转录组

随后下载小鼠以及大鼠

##小鼠
nohup wget http://ftp.ensembl.org/pub/release-104/fasta/mus_musculus/dna/Mus_musculus.GRCm39.dna.primary_assembly.fa.gz & ##下载基因组文件
nohup wget http://ftp.ensembl.org/pub/release-104/fasta/mus_musculus/cdna/Mus_musculus.GRCm39.cdna.all.fa.gz & ##下载参考转录组
nohup wget http://ftp.ensembl.org/pub/release-104/gtf/mus_musculus/Mus_musculus.GRCm39.104.gtf.gz & ##下载基因组注释

##大鼠
nohup wget http://ftp.ensembl.org/pub/release-104/fasta/rattus_norvegicus/dna/Rattus_norvegicus.Rnor_6.0.dna_sm.toplevel.fa.gz & ##下载参考基因组文件
nohup wget http://ftp.ensembl.org/pub/release-104/fasta/rattus_norvegicus/cdna/Rattus_norvegicus.Rnor_6.0.cdna.all.fa.gz & ##下载参考转录组文件
nohup wget http://ftp.ensembl.org/pub/release-104/gtf/rattus_norvegicus/Rattus_norvegicus.Rnor_6.0.104.gtf.gz & ##下载基因组注释文件

好啦!参考基因组准备好啦,接下来就要正式分析转录组数据啦!!

图文:张皓旻

本文编辑:李晨龙



关注微信

获取电子资讯

版权所有©山西医科大学 2022

| 忘记密码
注册说明

您好!感谢您关注清华x-lab创意创新创业教育平台。

在填写之前,请确认您项目的核心团队至少有一名成员是清华的在校生、校友及教师