32--GEO 的 ID 转换已经通关了【原创】-临床决策研究大数据山西省重点实验室

本文由医信融合团队成员“陈浩然”撰写，已同步至微信公众号“医信融合创新沙龙”与“研究生学生信”，更多精彩内容欢迎关注！

生信沙龙微信公众号 a2572a6d909e16290d985955dcc8405

前言

一个人如果认为意外是对个人的侮辱，那意味永远不会找上他。一个人如果把一切都归结为意外，那他永远就不会鼓起勇气和生活抗争。

——吸奇侠

首先推荐：

果子老师的公众号

以及本文参考的推送

如果不太清楚如何挖掘GEO数据库的，可以先看

本文能解决的问题

在我们分析GEO数据的时候，总会遇到下面这样的GPL，没有gene symbol，也不太好转换。参考GEO芯片中的NM，NR开头的识别号如何转换成基因名称？等其他ID转换的文章，我们确实是可以完成任务，但是特别费时费力，而且总是得一种ID对应一种转换流程，很麻烦。

当需要分析10个平台的时候，我们可能一个一个做，3天能做完，而如果当我们需要分析6000个平台的时候。。。

本文主要针对没有symbol列的人/小鼠的芯片数据GPL文件进行自动、批量ID转换，对着电脑发会儿呆，GPL文件就处理好了。

主要利用俩技术

正则表达式负责识别ID类型以及具体的每个ID

bioma**Rt**包负责各种ID转换

怎么用

1. 2022年6月23日之前，后台回复GEO芯片分析，获取相关代码和文件

2. 打开GPL_auto_ann.Rproj

标题: fig:

3. 在Rstudio的右下窗口File栏中双击GPL_auto_ann.R

4. 修改第三行root_dir的目录名为GPL_auto_ann文件夹所在目录，以“/”斜杠分割，如此处为D:/GPL_auto_ann

5. 将需要ID转换的GPL文件放入GPL_file文件夹

标题: fig:

6. Rstudio左上区域ctrl+A全选代码，然后

标题: fig: 即可

一些声明：

• 本文并未针对大鼠ID转换写相应代码，请运行之前检查！

• 由于GPL文件现在挺大的，因此输出文件将覆盖源文件，并仅保留两列（ID列和symbol列）

• 针对原来就已经有symbol列的GPL文件，代码并未做任何修改

感谢观看到最后，敬请批评指正

标题: fig:

图文：陈浩然

本文编辑：莫状

关注微信