分享人:齐荣暄
分享时间:2022.5.11早9:00
地点:线上会议(#腾讯会议:828-173-057)
参与人:王琪、师高翔、高启超、武莉、刘格良、薛佳、郑超越、程灵婧、冯爽、孔腾、孙翔飞、李渊、陈浩然、常敏静、王灿、薛丹阳、黄泰、纪之琳、齐荣煊、李晨龙、郭仟禧、何田田、樊芙蓉、龚万里、张书贤、莫状、侯雅琪、吴静等60余人
主要内容:在过去的二十年中,高通量技术已经使得来自分子过程的数据在大规模上和许多患者中可用。从分析整个基因组开始,其他分子实体如 mRNA 或肽也随着先进的技术而成为焦点。因此,各种类型的组学变量目前正在研究的几个学科,如基因组学,表观基因组学,转录组学,蛋白质组学,代谢组学和微生物学。尽管对其中一些方法在有限范围内进行了比较,但在使用足够大的实际数据的多组学背景下,尚未对其利弊进行大规模的系统比较。本文研究旨在填补这一空白,提供了一个大规模的基准实验的预测方法使用多组学数据。目的是评估这些方法的性能以及考虑多组学结构的不同方法。从研究方法上说,详细介绍了(1)基于惩罚回归的方法(2)基于boosting的方法(3)基于随机森林的方法和(1)Cox回归(2)Kaplan—Meier估计两种参考方法;对数据集做了详细的来源介绍,确保了数据真实有效性;接下来对技术细节及实现做了详细介绍,讲解了交叉验证、性能评估、稀疏模型等机器学习中的概念;最后对实验结果进行了分析,指出了文章关键点,并对文章提出自己后续的思考。