GEO、TCGA和其他公共肿瘤学数据资源是生物学家、生物信息学家等进行数据挖掘的宝库,使用OmicSoft OncoLand人工整理收录的数据集资源可以加速生物标志物发现的过程、提高可靠性。本文将对以下几方面的应用进行介绍:
•发现并验证疾病、疾病亚型、治疗、细胞类型等中的生物标志物表达情况。
•确定在疾病、治疗组、细胞类型或其他感兴趣的条件中特异表达的生物标志物列表
•在公共单细胞数据中感兴趣的细胞簇上叠加基因表达
OncoLand包含了人工收集整理的许多国际大型肿瘤数据库,具体数据集数量、样本数量等统计如下图。丰富的元数据包含样本信息、临床信息等,数据来源除了公共数据库外,还包含具体文献中的图表及补充材料等。研究人员直接使用这些经过专家收集和质量控制的高质量数据,可以大大缩短数据提取的时间,提高研究效率。
TLR4在许多癌症中发挥作用,可以作为乳腺癌的靶点。通过OmicSoft软件,我们可以看到该基因在不同的癌症分期、不同组织类型中的表达情况(如下图)。其表达在正常组织和癌症组织中差异明显。
同时,在OmicSoft中,我们也可以看到TLR4在其他类型的肿瘤中的表达情况,如下图。图中每一个点在点击后都可在下方展示详细信息的表格。并且页面中可以依据元数据,进行多样的筛选和分析操作。
除了查看TLR4基因的表达情况,我们往往还需要查看所研究疾病中该基因与其他基因的关系。是否有其他基因与该基因有显著相似或相反的表达模式呢?下图即为OmicSoft中找出的,在肿瘤中与TLR4密切相关的基因ZEB2。
在OmicSoft中,用户还可以实现跨数据集的分析。如下为使用来自GTEx和TCGA的样本查看目标基因的表达,可以明显区分出肿瘤样本和正常组织样本。用户也可以自己建立land,或者整合不同land的数据。例如确认自己的实验结果是否与发表的文献一致等。
如果想要查看目标基因中存在的突变,也可以使用OmicSoft可视化染色体(如下)查看不同的突变类型以及突变的位置,例如探索不同癌症种类中有哪些不同类型的突变。
当我们还没有某一确定的目标研究基因时,我们可以通过OmicSoft来找出所研究疾病的生物标志物,找出对该疾病有影响的基因列表。用户可以浏览和分析不同的对比组,例如下图所示的火山图清晰地展示了乳腺癌中,肿瘤组织和正常组织相比,显著上调(红色)和下调(绿色)的基因。其中紫色显示的CXCL10基因即为一个已知的乳腺癌诊断标志物,在图中显示为上调。用户也可以点击其他上调的基因,找出生物标志物。
OncoGEO数据库的概览如下,包含近30个疾病大类(纵坐标),样本数最多的大类下有近3万个样本(横坐标)。OmicSoft中包含灵活的filter和comparison设置,用户可以通过图形界面轻松实现数以万计样本的对比和分析。
通过OmicSoft交互式的界面,用户可以直观地在下方的表中看到各个基因的统计数值,也可以将这些数值导入IPA(Ingenuity Pathway Analysis)软件中进行通路分析、找出关键调控因子等。
当我们得到一组感兴趣的基因列表后,可能需要知道这组gene signature在患者中治疗前后有什么变化。假设当我们读到一篇临床研究,想要知道感兴趣的基因在文章中的数据集中表达如何。我们就可以在OmicSoft中通过PubMed ID搜到这篇文章,并生成热图(如下)。
通过生成的热图(数据来自文献PMID:26842237),我们可以清晰地看出感兴趣的基因集在Complete Response和No Response的患者中有非常明显的表达差异。绿色部分为显著下调的基因,红色为显著上调的基因。
相比于bulk数据,单细胞技术使得研究人员可以深入研究不同类别细胞的基因表达差异。OmicSoft也包含单细胞数据,其中的细胞类型是经过人工注释的,并使用controlled vocabulary命名。例如下图中,OmicSoft用小提琴图展示了TLR4基因在不同细胞类型中的表达情况,其中monocyte(单核细胞)在三阴性乳腺癌中有非常高的TLR4表达。
如果用户想要看不同数据集中该基因的表达,也可以在如下的降维图中查看。
下图显示了HCL项目下的单细胞数据集概览,右侧的图例中显示了其包含近200种不同的细胞类型。
本篇主要介绍了如何使用OmicSoft找出生物标志物,并查看感兴趣的基因集在不同样本类型中的表达情况。而且,bulk维度下的分析功能我们也可以拓展到单细胞层面,获取到更深层次的见解。