测序技术的飞速发展,带来的是海量的生物信息数据,公共数据库中数据积累也非常可观。如何有效应用公共数据库中的数据,来阐述相关科学问题,是一个值得探讨的话题。基于已有的数据来形成新的假说、获得新的发现,不仅可以省掉样本收集、测序、数据处理等的成本和时间,而且可以获得更加广泛的数据支持,达到事半功倍的效果。
接下来,我们将以阿尔兹海默症为例,说明如何使用公共数据库进行生物标志物发现。使用IPA对如下所示的两个GEO数据集进行分析后,在Graphical Summary页面可见MECP2(下图红圈所示)同时出现在了这两个不同的研究中。我们不禁产生疑问,就目前发表的研究来看,它与阿尔兹海默症有什么关系呢?
使用OmicSoft DiseaseLand,用户可以快速从海量的、经过统一数据流程处理的数据中,快速查看感兴趣基因在疾病和正常样本中的表达情况,如下图为按照组织分组的基因表达图,每个点代表一项研究。从图中可见prefrontal cortex中的MECP2表达在疾病和正常状态下差异最大。
至此,我们找到了值得关注的基因和组织。接下来,我们可以找出prefrontal cortex中与MECP2有关联的其他基因(包括correlation和anti-correlation)。
在以上的26个基因中,有办法进一步进行优先排序吗?在正常和疾病状态下,将箱线图按照p值排序,可见KMT2D排在首位。
从中挑选四个基因后,我们可以借助IPA深入探究它们是如何与阿尔兹海默症产生联系的。下图中展示了IPA中分子活性预测后,四个基因与疾病的关联。这有助于用户快速理解阿尔兹海默症相关的生物学机制。
文献案例1:基于DiseaseLand进行疾病特征和治疗的综合分析
研究人员建立了一种系统的数据集成和荟萃分析方法,可用于创建疾病特征的统一图谱,用于筛选药物靶点、通路和化合物。将多项研究的信息相结合,我们能够更深入地理解复杂的疾病。在下图左图中展示了双相情感障碍中多种荟萃分析方法产生的差异基因结果比较。(A)为大脑中基因表达的频率分布图,表明在前额皮质(PFC)中发现的重要差异基因在大脑中更为丰富,并且(B)与所有其他基因相比,对大脑更具特异性。
文献案例2:从公共数据中探索人类滑膜活检组织
类风湿性关节炎(RA)以关节免疫细胞浸润和滑膜炎症为特征,会导致进行性残疾。目前的治疗方法可以改善疾病的转归,但未满足的医疗需求仍然很高。到目前为止,对类风湿性关节炎疾病发展过程中的代谢变化,特别是在患病微环境中的代谢改变的了解仍然有限。
因此,研究人员通过整合代谢组学和转录组学数据,研究了小鼠关节炎发展过程中的纵向代谢变化。结果发现巨噬细胞通路的早期变化伴随着氧化应激、NAD+水平的下降、葡萄糖转运蛋白的诱导。其中,SIRT1(一种NAD依赖性组蛋白脱乙酰酶)受到抑制,并证实其在类风湿性关节炎患者的巨噬细胞和滑膜组织中失调(依据OmicSoft DiseaseLand数据,如下图所示)。作者表示,挖掘这个数据库可能能够发现类风湿性关节炎的新代谢靶点和治疗方法。
数据清洗和数据预处理是一项耗时耗力的工作,在OmicSoft背后是一个博士专家组成的curation团队。他们在工作中发现,GEO中大约35%的数据集都会存在不同程度的错误或不一致性,5%的数据集需要联系作者来确认不一致的术语、标记不清的治疗或疾病状态、不准确的分组、样本ID不符等情况。因此,在数据可以被真正用于分析前,需要经过专业的处理,详见《为什么药物研发需要人工整理的组学数据库?》(点击阅读)。
随着“精准医疗”概念的不断普及,药物研究和生物标志物研究变得越来越重要。通过挖掘公共组学数据库,研究人员可以发现与疾病相关的代谢产物或蛋白质,并深入了解这些分子的生物学功能和调控网络。这些公共的研究为精准医疗的实现提供了新的思路和方法。欢迎联系源资科技体验OmicSoft的强大功能!