OmicSoft收录的LAND样本数据
在OmicSoft中包含的LAND数据,是从各种科研数据库中收集的数据样本,样本的范围很广,包括GEO,SRA,TCGA,GTEx等知名的样本数据库。并且按照癌症、常见重大疾病、单细胞研究分别将样本分类存于三个LANDs数据库中:OncoLand收录癌症数据样本的数据库,DiseaseLand收录重大疾病样本的数据库,Single Cell Land收录单细胞研究的数据库。
所有收录进来的数据,都按照统一的处理方法进行了梳理。首先,OmicSoft团队的科学家对所有收集来的样品进行Raw Data的QC检测和metadata的收集。之后根据metadata的记录,将样本进行样本注释,比如分组、对照、样本处理方式等,这些信息方便用户之后对样本进行检索。而样本的Raw Data则会进行均一化处理并进行基因表达值、基因突变位点、基因拷贝数等信息的收集提取。之后所有处理过的数据就可以进行数据分析,比如样本对比分析、数据模型建立等。组学数据和元数据信息都被收录在Land数据库中,方便用户在数据库中进行数据整合和进一步分析。
OncoLand是一个肿瘤学数据库,可帮助缺少实际测序样本的用户通过Land来探索公共癌症基因组数据集,从而获得更多的数据证据,来验证他们的研究。Land能够方便用户进行更快捷的样本数据的信息收集和数据对比分析等深度数据挖掘工作。
在OncoLand的数据库中(如下图),可以直接搜索某一基因或某一疾病相关的样本。在图形化界面中,样本的分组、样本数量等属性以颜色和柱状图直观的显示,方便用户使用左侧的样品导航栏和右侧的样品分类栏进行进一步的数据整理和筛选。
在DiseaseLand中,除了收录了人类疾病样本之外,还收录了小鼠和大鼠的疾病样本,方便用户在数据库中根据不同的物种调取样本进行统一的分析。这些样本不仅仅是RNAseq的测序数据,还包含芯片、miRNA等数据,这些数据来自于GEO,ArrayExpress,SRA,LINCS等数据库。
在Single Cell Land中收录了单细胞测序的数据。单细胞测序使人们对基因表达中的细胞间异质性有了前所未有的了解。Single Cell Land包含来自人类、小鼠和大鼠的数据。能够查找稀有细胞类型的特征,发现瞬时细胞状态的新生物标记,能够比较疾病和正常组织中的细胞类型组成。
在可视化平台中,用户能够根据研究的需要,直接在选定的样本中进行对比和统计分析,并能直接在平台上获得丰富的样本信息,比如同一基因在不同疾病亚型的表达差异,病人生存曲线的绘制,生成散点图、火山图、气泡图、热图等。
综上所述,不同于其他的数据分析软件,OmicSoft不仅提供了可视化的数据分析工具,而且还包括了科学的数据整理和归档功能;更进一步,OmicSoft还通过人工审核的方式收录了很多公共样本数据库比如TCGA,SRA,GEO等数据,能够直接在系统内进行公共数据的搜索、整合、分析,帮助样本不足的小实验获得足量的实验数据;统一平台的统一数据处理方式,不仅能够保证自己数据得到有效的分析,还能够很方便的和其他公共数据进行数据整合、对比分析等。