集结经典应用案例<br/>用户成功案例解读<br/>分享项目中的实践方案
A classic case
集结经典应用案例
用户成功案例解读
分享项目中的实践方案
10/12
October 12, 2022

CLC案例九——如何改善复杂基因组的结构注释

在使用新的基因组组装(Genome assembly)进行下游实验之前,创建完整的基因注释至关重要。然而,许多组装和注释的基因组可能存在影响实验室分析的重大缺陷,例如:感兴趣的基因可能被注释错误或根本没有进行注释。本文将以苜蓿的植物抗病基因(R基因经常被错误注释)为例,展示如何在设计功能或基因分型分析之前补充和添加注释R基因可能包含重复元素,并且经常被掩盖这些重复的注释管线过滤掉。


 


Transcript Discovery是CLC Genomics Workbench中的免费插件。与作者发表文献(Chen et al., 2020)中的注释相比,Transcript Discovery工具产生了更完整的结构基因注释。Annotate with DIAMONDCLC微生物基因组学模块的一个工具,当使用核苷酸结合序列(NBS)基序序列作为蛋白质参考时,该工具定位了所有的R基因。通过CLC分析,100个之前未注释的表达R基因被鉴定了出来(下图中的红色框就是一个这样的例子)。对于特定的NBS注释,在该文献的基因组中没有注释;然而,Transcript Discovery工具产生了如下所示的基因、转录本和编码序列(CDS)注释。NBS注释是由Annotate with DIAMOND插件添加的。大多数其他注释工具都难以正确注释包含CDS的重复。


 


Transcript Discovery

Mapping工具不需要现有注释,它可以将序列reads扩展到内含子上。使用Large Gap Read Mapping工具将9600万个150 nt(来自pooled mRNA样本)的paired-end reads与参考基因组对齐。然后,输出的数据通过Transcript Discovery,基于基因表达数据生成了一组基因、转录本和CDS注释,如下图:


 


Annotate with DIAMOND

R基因可能很难使用自动管线进行注释,因为它们经常被重复掩蔽管线过滤掉。每一个R基因都包含一个NBS基序,我们可以利用这种基序进行DIAMOND注释。Annotate with DIAMOND插件使用一组已知的蛋白质参考序列进行DNA序列的注释。该工具可用于基因组序列,无需已存在的注释。虽然DIAMOND工具是CLC微生物基因组模块的一部分,但它也可以用于大型基因组。

 

在处理基因组组装时,应使用多种注释工具来生成和完善基因模型。CLC Genomics Workbench提供了多种注释工具,本文只介绍了其中两种:Transcript Discovery和Annotate with DIAMOND。这些全面、易用的工具使生物学家能够将新组装的基因组用于进一步的功能分析。

 

[参考文献]

1. Chen, H., et al. (2020) Allele-aware chromosome-level genome assembly and efficient transgene-free genome editing for the autotetraploid cultivated alfalfa. Nat Commun 11, 2494.

2 Meyers, B.C., et al. (2003). Genome-wide analysis of NBS-LRRencoding genes in Arabidopsis. The Plant Cell 15, 809.