单细胞分析技术测量的是单个细胞中基因的表达,这项技术揭示了海量细胞中每个细胞的独特转录库。既然现在我们可以很好地量化单个细胞中单个基因的表达,那么有什么工具可以帮助我们解释这些海量数据背后深层的生物学意义呢?
IPA(Ingenuity Pathway Analysis)是一个依托自有知识库的分析软件,它可以预测每个细胞或细胞簇中正在发生的生物学过程。单细胞研究中受欢迎的领域之一是器官的细胞组成图谱,无论是成年动物中完全分化的器官,还是胚胎或胎儿中仍在快速发育的器官。因此,本教程选取的案例关注的是受孕后14周发育中人类肝脏的细胞类型(数据来源:doi:10.1038/s41586-019-1652-y)。由于涉及的功能较多,小编特此将案例分为了上中下三篇进行仔细的讲解。
1. 处理下机测序数据
使用CLC Genomics Workbench软件中的单细胞分析模块处理原始的单细胞转录组数据,如图1所示为CLC生成的UMAP细胞簇。CLC的workflow可直接将差异表达数据传入IPA进行深度分析。
图1:受孕后14周人类肝脏细胞的细胞簇(由CLC软件重新处理得到)
2. 使用Land Explorer评估关键marker
使用CLC软件中的细胞marker分类器自动识别和标记细胞簇,并计算每个簇的差异表达基因(即相对于所有其他簇的总合)。
使用Land Explorer来搜索一个代表某种细胞类型的基因:SAA4(血清淀粉样蛋白A4,组成型)。SAA4是肝细胞簇中高度富集的标志物之一。
在IPA的Genes and Chemicals搜索选项卡中键入SAA4,点击Search按钮,然后单击其基因名称,打开基因视图。OmicSoft Land Explorer部分(图2中黄色标题的栏目)有许多超链接,点击即可打开SAA4的各个视图,例如基因表达视图、突变频率视图等。这些视图源自14万+多个经人工收录的组学数据集(每季度持续新增数据集)。
图2:SAA4的基因视图
单击GTEx栏目下的RNA-seq expression部分中的超链接,即可在Land Explorer中打开如下视图:
图3:GTEx正常人体组织中RNA-seq的SAA4表达
可见,在所有组织中,SAA4在成人肝脏中表达最高(图3顶部区域)。这也与SAA4在14周龄发育中肝脏提取的单个肝细胞中观察到的特异性表达一致。
返回基因视图,单击Human Cell Landscape (HCL)的超链接,如下图,可见相对于HCL的其它细胞,SAA4在肝细胞中过度表达。
图4:SAA4在人体组织分离的单细胞簇中的表达
3. 批量上传表达量数据集到IPA
考虑到部分用户没有CLC,这里介绍的是如何手动上传数据到IPA进行分析。批量上传的数据集需要是文本文件(.txt),每个文件代表一个细胞簇:
图5:适用于批量上传的文本文件示例
将需要批量上传的所有数据集文件放在一个文件夹中,然后如下所示批量上传。
图6:IPA中的Batch Upload菜单选项以及随后的对话框,您可以在其中找到要上传的数据集,并选择要保存的位置。
4. 单细胞表达数据的批量分析
右键单击数据集文件夹,然后选择Expression Batch Analysis,设置核心分析的分析参数,这些参数会应用于要分析的所有数据集。如果您希望对每个分析使用不同的参数设置,则需要分别对每个文件进行分析。
图7:分析设置对话框
在下一篇推文中,我们会继续从本次分析的结果出发,深入解析有意义的生物学调控子和及其对功能的影响。
欢迎联系源资科技获取本示例中的单细胞分析数据,若您在分析时遇到问题,我们会竭诚为您解答。