CLC单细胞数据分析模块
单细胞测序技术作为一种高分辨率的技术,可以在单细胞水平快速构建组织或器官的分子图谱,了解基因调控机制,从而探索早期胚胎发育、组织及器官形成、免疫机制和肿瘤发生等分子机理。当然,对于高噪音、高维度的单细胞测序数据,同样需要特定的分析流程进行处理。单细胞分析流程通常包括:原始数据的质控、序列的比对、Barcode拆分和UMI处理、表达矩阵构建、细胞质控、批次效应矫正、细胞分群和差异表达基因计算等。
为了帮助科学家快速搭建单细胞数据分析流程,CLC Genomics Workbench v21版本推出了基于可视化操作界面的单细胞分析流程:
● 支持不同数据格式:Fastq、10X HDF5、Loom、Expression Matrix、Cell Cluster等
● 均一化和批次效应处理:基于sctransform算法进行均一化处理
● 数据降维:支持UMAP/t-SNE进行数据降维
● 细胞类型注释:基于training dataset 进行自动化细胞类型注释
● 差异表达基因:计算任意Cell Cluster之间的差异表达基因
数据导入
不同分析软件会生成不同格式的文件,为了最大化支持不同分析软件产生的结果,CLC Single Cell Analysis Module 可以支持导入10X Genomics HDF5、Loom、Expression Matrix、Cell Cluster等格式的数据。
细胞质控
单细胞样本在制备过程中会遇到多个细胞进入同一个液滴、没有细胞进入液滴、细胞凋亡等情况。CLC Single Cell Analysis Module基于reads数以及线粒体基因表达情况对细胞质量进行质控。
细胞类型注释
CLC Single Cell Analysis Module开发了自动化细胞类型注释工具,基于已知细胞类型的表达谱数据进行模型训练,然后利用该模型进行细胞类型的注释。
UMAP/t-SNE
对于高维单细胞数据可视化,CLC Single Cell Analysis Module 提供了t-SNE和UMAP两种降维方法对细胞类型进行可视化展示。