【重磅消息】IPA 2023夏季新版发布!
近日,我们迎来了IPA发布的2023年夏季新版,此版本新增准确匹配、机器学习疾病通路等新功能。目前,IPA知识库数据量已超过1260万条,收录的数据集已超过14万个。
一、功能更新
1. 在Analysis Match中进行更准确的匹配
在这个新版中,增加了一种与其他分析相匹配的新方法。该方法可以直接将您感兴趣的分析中的analysis-ready基因与IPA OmicSoft数据库中的每个分析中的基因进行评分。这与原先Analysis Match中的方法有所不同,原先的Analysis Match是和其他分析的上游调控子、经典通路等之间的重叠(overlap)进行评分。
这种新方法称为“数据集匹配”(Dataset Matching),因为匹配是在每次分析的数据集基因水平上进行的。这种新的评分结果显示在“分析匹配”(Analysis Match)表中最右侧的列中,与原先的总体z-score列相邻。这种新方法可以比先前的匹配方法更准确。此外,它还可以用于匹配极小的数据集,例如小于100个基因的数据集,甚至只有10-20个基因的数据集。这种方法很强大,它可能会减少发现更遥远的“生物学”水平上相关但在基因水平上不那么密切的分析。
图1显示了相同分析的Analysis Match表(局部),分别按原先的总体z-score排序,以及按新的z-score排序。下方表中的结果似乎比上方的表更接近心肌细胞与胚胎干细胞的查询(query)分析(如蓝色虚线框所示)。
图 1:按照两种方式排序的Analysis Match表
在选择了要与query进行比较的分析之后,可以创建如图2所示的热图,然后单击“Analysis-ready genes”行中感兴趣的热图小方块,即可查看查询分析和匹配基因之间重叠的基因集。
图 2:前四十个匹配分析的热图
点击热图方块会显示查询和匹配分析之间重叠的一组基因。用户可以在新窗口中打开它们,还可以添加查询分析的overlay,如图3所示。
图 3:心肌细胞分析与匹配分析之间的250个基因匹配
如上所述,新的评分方法通常适用于小型数据集,它们往往由于基因太少而无法生成强大的上游调节因子、因果网络、经典通路以及疾病和功能特征,且无法与其他分析进行匹配。现在通过“数据集匹配”的方式,用户可以方便地在基因水平上进行更准确的匹配分析。
举个例子,图4显示了心肌细胞数据集中前10个基因的分析匹配结果(基于p-value和fold change),即将心肌细胞与胚胎干细胞的10个基因数据集的分析与预期的分析类型相匹配。
图 4:小数据集的新评分方法结果
2. 通过核心分析中的机器学习疾病通路获得意料之外的新发现
一年前,IPA使用机器学习技术创建了大约1500个疾病和表型网络。这些“机器学习疾病通路”(最初称为“推断网络”Inferred Networks)包含影响每个网络中显示的疾病和表型的已知基因和蛋白质,而且也包含来自机器学习的推断分子,这些分子尚未在IPA知识库中被发现参与这些关系,或其与这些结果的关系尚未被专家整理收录。这些通路可以在IPA中按关键字进行搜索,用户可以查看这些通路并将数据overlay到它们上。
在这个新版IPA中,当用户运行核心分析时,这些机器学习通路会自动通过z-score和p-value对用户上传的数据集进行评分,结果可以帮助发现所分析的数据集与疾病和表型之间潜在的新关系。例如,图5显示了根据辛伐他汀处理的人HUVEC细胞的转录谱对机器学习通路进行评分的结果(表达数据来源于GSE85799),可见Fisher准确检验(右尾)的显著结果是“严重败血症”。
图 5:对辛伐他汀治疗的大鼠(肝脏)依据机器学习通路进行评分
双击严重脓毒症的条块会显示其通路图,如图6所示。Overlay辛伐他汀治疗的表达模式(红色或绿色节点),并用分子活性预测工具预测了对相邻节点的影响(橙色或蓝色节点),如此结合分析表明该药物可以减少败血症。我们不妨深挖一下这个例子,IPA中辛伐他汀的化合物报告页面表明,该药物处于败血症的4期临床试验中,也就是说,IPA预测出辛伐他汀可以减少严重败血症。
图 6:将辛伐他汀差异表达数据overlay到严重败血症机器学习通路上
3. 快速轻松地选择经典通路并显示在图表中
为了便于选择要包含在图表中的经典通路,新版IPA在“Customize Chart”对话框中添加了一个自动填充框。如果用户想排除某个通路,只需在框中输入通路的前几个字母,然后在自动出现的结果中看到它时取消选中即可。另一方面,如果用户只想快速关注一个或几个通路,可以先取消“全选”复选框,然后键入与该通路相关的文本,快速地查找需要包含的通路,最后选择它们的复选框。图7显示了这种情况的示例,即用户只想在图表中显示肌动蛋白相关的通路。
图 7:在“Customize Chart”对话框中快速关注感兴趣的经典通路
二、内容更新
本季度新增了超过40万项新发现,使得IPA知识库数据量超过1260万条。新增的内容包括BioGrid的蛋白-蛋白相互作用、ClinVar的癌症突变发现、ClinicalTrials.gov的靶点-疾病发现和药物-疾病发现、Gene Ontology的发现等。
在Analysis Match、Activity Plot、Pattern Search、Land Explorer等功能中,用户可以探索超过14万个数据集(具体数据统计如下表),或是将它们与自己的数据集进行比较分析。
图 7:Land数据集统计表。
IPA的内容团队和开发团队一直以来都在不断提升和完善知识库和功能,源资科技一直以来都在不断为广大的用户带来优质的解决方案和支持服务。欢迎扫描下方二维码联系我们体验IPA的新功能!