该方向以贺培凤教授为学术核心,从多源数据融合角度,基于“药物—疾病”网络开展知识发现研究,从而实现药物知识的发现。通过多源数据的融合,可以从数据的来源上建立多种药物、疾病、基因之间的关联,进而为药物知识发现提供全新的模型、途径和思路,提高药物研发的效率和成功率,克服基因表达谱分析的局限性。
子方向一:多源数据资源库建设。
利用具有自主知识产权是数据资源下载工具,从疾病数据库(如 DiseaseOntology)、药物信息数据库(如 DrugBank、 CTD 数据库)、人类基因和蛋白信息数据库(如 STRING、 Ensembl、 Uni-ProtKB、 HGNC)以及组学数据库(GEODatasets)等权威的公共网络数据库中自动采集相关的生物医学数据资源,建设生物医学资源数据仓库。考虑到采集的异构数据存在数据格式的差异,因此需要定义统一的元数据处理规则对数据类型各异的医疗数据进行标准化处理,构建基因数据知识库、药物知识库、疾病知识库以及科研文本知识库,为多源数据的开发应用提供坚实的资源保障。
子方向二:多源数据的“三级融合”理论方法研究。
为了促进健康医疗大数据能够有效 地从量变到质变,实现数据价值最大程度的挖掘,多源数据的应用是必经之路。为了实现有效的融合,必须从形式、语义、内在逻辑三个层面去进行多源数据技术融合的理论和方法,从而为健康医疗大数据资源的深度应用、综合应用和高级应用提供基础支撑。
子方向三:基于多源数据的药物重定位平台建设。
基于基因表达特征和基因表达丰度建立疾病与小分子药物之间关联发现与关联分析,通过构建包含基因组学、转录组学、蛋白组学和代谢组学等基因组数据库、药物数据库、疾病数据库和生物医学文献数据库,运用生物信息学、计算机科学、数据科学、基础医学、临床医学等理论和深度学习方法,建立大规模多任务深度学习网络,实现老药新用、新药研发、临床干预和理论创新的药物重定位平台。