CRISPR高通量测序数据分析受到越来越多的研究人员关注。本文详细阐述了如何使用QIAGEN CLC Genomics Workbench分析CRISPR高通量测序数据,并解读了测序数据生成的基因列表。主要内容有:
• 导入测序数据(例如FASTQ格式)
• 通过管线运行数据(例如RNA seq、DNA seq等)
• 生成和导出下游结果(热图、差异表达表、Genome Browser视图等)
CRISPR是非常重要的基因组靶向技术,在建立基因组改变的动物模型时,可帮助生物医学科学家减少耗时和费用。
CLC能够可视化并识别出您的实验中靶标是否成功地被编辑了,下图左图为Genome Browser视图,峰显示了实验组与空白组相比上调的基因,右图用热图的形式突出显示了基因表达的差异。
文献案例
《胰腺癌细胞CRISPR联合筛查表明协同阻遏复合物通过调节上皮细胞向间充质细胞的转化而导致多重耐药》(2021年, PMID: 34049503)
此研究使用CRISPR技术将胰腺癌细胞系中的ABCG2基因高表达,此基因是耐药性的一个调控子。研究人员使用CLC分析了RNA seq数据,生成了差异表达结果。
CLC可以处理多种测序平台产生的原始数据,拥有全面的生信分析工具,方便没有代码背景的的非生信研究人员快速上手进行生信分析。它还拥有多套工作流程(如下图),高效地进行流程化的数据处理。例如:CLC中对于CRISPR的RNA数据处理流程大致包含下载合适的参考基因组、修剪原始reads,将其与参考序列比对、量化基因和转录本、进行差异表达分析。
CLC数据分析步骤和结果解读详解
1. 导入原始数据
点击下图Import选择合适的测序平台,在弹框中从电脑本地选择fastq文件,注意判断是否是paired reads并做相应的勾选。
上传reads文件成功后可在左边栏看到文件,如下图中SRR开头的两个文件。
接下来导入metadata,也是从import选项下进行,选择本地文件后点击Next进行预览和信息匹配。Metadata通常是以表的形式记录样本信息,导入后方便后续作比较。
2. 下载参考基因组
选择主界面右上角的References按钮选择合适的参考基因组进行下载。完成后可在左侧栏浏览下载好的文件。
3. 使用工作流开始分析
从左侧栏中双击打开想要使用的工作流。
点击右下角的run会弹出弹框,可按步骤选择设置。
4. Genome Browser
运行工作流后,产生的结果文件会显示在左侧栏中。双击下图箭头所示文件并点击绿框的Create Track List即可创建Genome Browser。
注意在弹框中选择需要展示的元素(elements),除了之前双击打开的文件,还可以添加参考基因组、参考基因组注释、control等。
创建Genome Browser后,点击下图绿框中的按钮即可打开表格视图
在下图箭头所示的filter框中输入感兴趣的基因并点击filter后上半部分视图即可显示此基因在染色体上具体的位置。并可以对比实验组与control组该基因的激活情况。
5. 差异表达结果
在左侧栏箭头处双击即可打开展示转录本信息的表格。右侧的多选框可以自定义想要显示的列。
这个表格可以导出进行进一步的分析,例如使用IPA进行生物学意义上的解读。点击export后会弹出弹框供用户选择导出格式。
点击左下角绿框的按钮即可显示火山图,鼠标圈选图中的点即可显示基因名称。火山图的左侧显示的是下调的基因,右侧显示的是上调的基因。
点击左侧栏的Heatmap显示差异基因的热图,纵坐标的基因是前25%显著基因,基因名后的数字是转录本的编号,横坐标是样本。右侧栏可添加metadata信息的展示,在热图中即可显示在最上部,如下图中的Cell Line和Crispr Guide信息。
点击Graphics即可导出热图。请注意控制使用导出功能,一般使用屏幕截图即可,发表需要的高清图再用导出功能。
如果用户还有DNA数据,则可以使用相应的工作流进行处理,并在Genome Browser中查看variant,如下图:
CLC也有ChIP-seq的分析工具,分析得到的结果同样可在Genome Browser进行展示,如下图:
对设计primer感兴趣的用户可以使用左下角栏中的Toolbox进行引物设计。
CLC作为一款功能强大的生物信息学分析软件,除了文中展示的数据类型外,还可以处理微生物数据、单细胞数据等。欢迎大家持续关注源资科技未来的CLC实操应用案例。