数据库(Database,简称DB)是长期储存在计算机内、有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和储存、可为各种用户共享,此外数据库还具有冗余度较小、数据独立性较高、易扩展等特征。数据库的建设规模、数据库信息量的大小和使用频度已成为衡量一个国家信息化程度的重要标志。本期给大家分享笔者学习The Cancer Imaging Archive (TCIA)数据库的学习笔记。
一、TCIA数据库的介绍
TCIA网址:https://www.cancerimagingarchive.net/
点击上方链接,进入官网首页我们即可看到关于TCIA数据库的介绍。

癌症影像档案库
The Cancer Imaging Archive(TCIA)
为公众提供大量去识别化的医学癌症影像的档案资料。自2011年6月以来,已有2,000多名用户注册,并从该免费资源中搜索和访问数据。TCIA通过托管和管理图像档案,提供项目Wiki空间和可搜索的元数据存储库来鼓励和支持与癌症相关的开放科学社区。
TCIA数据库是一项可去识别和托管可供公众下载的大量癌症医学图像的服务,有各种癌症类型(例如癌,肺癌,骨髓瘤)和各种成像模式的癌症成像数据集。TCIA将图像数据分组到集合中,一个集合通常包括来自多个人类受试者(图像和相关研究数据的组)的研究,其中的受试者通常通常共同具有特定的疾病和/或特定的解剖部位(例如,肺,脑)。此外,TCIA数据库还提供与图像相关的支持数据,如患者结果、治疗细节、基因组学和专家分析等。
二、access the data
进入官网首页后,找到access the data(获取数据)栏目,跳转进入搜索界面,其中主要包含以下6大板块:

• 浏览数据Browse Collections
• 浏览已经分析的结果Browse Analysis Results
• 检索放射学数据Search Radiology Portal
• 搜索组织病理学Search Histopathology Portal
• TCIA程序化接口Rest API
• 数据分析中心Data Analysis Centers
1.浏览数据(Browse Collections)

TIPS:可以通过filter table快速查找感兴趣的数据集
2.浏览已经分析的结果(Browse Analysis Results)

此类数据包括放射科医生或病理学家注释,图像分类,分割,放射线特征或重新处理的图像
3.检索放射学数据(Search Radiology Portal)


• 在批量加入购物车下载后的数据格式为. tcia
• 想要点开和下载需要安装NBIA Data Retriever
• NBIA Data Retriever的下载和安装方法


在下载完成后,打开tcia文件
就会打开NBIA Data Retriever
如果你不想下载其中的某些数据,可以选中后删除,当你从“下载”表中删除某一项时,该项将保留在购物车中

4.搜索组织病理学(Search Histopathology Portal)

• 从CPTAC中搜索和可视化数据,以分析可能与相应的蛋白组学、基因组学和临床数据相关的癌症表型
• 从TCGA中收集中搜索和可视化数据,以调查可能与相应基因组和临床数据相关的癌症表型
• 除了上面两个比较常用的数据集外,还包含有其他数据集
5.TCIA程序化接口(Rest API)

当前页面主要介绍了可用于访问TCIA数据和资源的各种代表性状态转移应用程序编程接口(REST API)实现方法
6.数据分析中心(Data Analysis Centers)

数据分析中心(DAC)是一种通过连接到TCIA编程接口(REST API)或镜像集合的工具或网站,为下载、可视化或分析TCIA数据提供附加功能。
7.数据使用统计(Data Usage Statistics)

通过柱状图来显示各时间段数据检索和使用的情况。
可以看出当前的一个研究热点和倾向。
三、Submit Your Data
点击Submit Your Data(提交数据)可以进入如下所示的一个界面

这一部分主要包含3个模块
• 新TCIA数据集New TCIA Dataset
• 现有TCIA数据集的分析Analysis of Existing TCIA Datasets
• Submission and De-identification Overview
1.新TCIA数据集(New TCIA Dataset)

在填写完申请表并且通过后,就可以向TCIA提交新的影像数据集。
2.现有TCIA数据集的分析(Analysis of Existing TCIA Datasets)

类似地,在填写完申请表并且通过后可以对现有的TCIA数据进行分析,包括图像标签、注释、器官/肿瘤分割和放射/病理特征
3.Submission and De-identification Overview
这部分是提供TCIA关于数据收集、识别和管理的协议细节
四、相关研究Research Activities
这部分包含了5个模块
• Publications Based on TCIA
• Imaging Proteogenomics
• Imaging Clinical Trials
• Challenge Competitions
• COVID-19
1.Publications Based on TCIA

这里显示了引用了TCIA数据库的一些研究并且做了简单的归类
在文献写作和查找思路时可以提供帮助
2.Imaging Proteogenomics

该界面提供了如何快速检索出包含有基因组学和/或蛋白质组数据的数据的办法
通过Browse Collections检索“Genomics”和/或“Proteomics”数据集
比如我要检索与TCGA数据库有关联的数据

通过选定supporting data这一列,然后输入TCGA作为关键词就可以了
3.Imaging Clinical Trials
这里显示了一些临床实验所做出的一些影像学资料,目前有的有下面几个实验
点击即可进入下载

4.Challenge Competitions
TCIA收集的数据已经并将继续用于图像分析挑战或比赛,如图像分割或肿瘤分类。下面描述了利用TCIA数据的具体挑战。请注意,这些挑战并不是由TCIA员工管理的,如果浏览细节的话,可能会被送到与TCIA无关的网站去了解更多信息
5.COVID-19
事实证明,对COVID-19感染患者使用成像技术对患者分类、对预后不良的风险评估(特别是在危险人群中)和随访都很有价值。除了呼吸系统,先进的成像技术也被用于追踪COVID-19在肾脏、肝脏、心脏和神经系统方面的后遗症。同时,从活组织切片和死后标本中提取的数字病理图像也在不断增长。一些机构正在进行全身MR或CT虚拟尸检

在这里你可以获取一些关于感染新冠病人的一些影像学资料,比如CT之类的

到这里,数据库的介绍就基本结束啦。
本文转载自《医学生之学习生信》。如有侵权,请联系删除。