分析测试百科网

搜索

分析测试百科网 > 行业资讯 > 微信文章

探“云”指南 | 全体复诵:欧易云GSEA分析!

创新多组学技术服务
2023.3.17

相信大家在做传统的基因功能富集分析时肯定会遇到这样的情况,上调的基因和下调的基因富集到相同的一条通路中,那么这条通路总体是被抑制还是被激活呢?对于这个问题,GSEA分析的优势就体现出来了,它是基于基因集的富集分析方法,根据每个基因集内的基因是否富集于表型相关度排序后基因列表的上部或下部,从而判断出此基因集内基因的协同变化对表型变化的影响。下面我们就来看看关于GSEA分析小工具的详细介绍。

功能介绍

基因集富集分析(Gene Set Enrichment Analysis, GSEA)是一种计算方法,用来确定一组先验定义的基因集是否在两种生物状态之间显示出统计学上显著的、一致的差异。

文件要求

01

表达矩阵文件

第一列为特征名称,其余每列为样本名称,样本名称对应值为表达量或信号值。仅保留输入文件内的数值型列进行后续分析,建议使用fpkm.xls

图1 | 表达矩阵文件格式示例

02

分组比较文件

该文件必须包含差异分组比较信息(case,case_name,control,control_name列)。对每行的case和control分别进行一次GSEA分析。(支持以tab分割的txt 后缀文本文件,xls及xlsx的excel文件)

图2 | 分组比较文件格式示例

03

富集gmt背景文件

如果在主要参数中的物种选择了自定义gmt文件,请于常用参数中的富集gmt文件处上该文件。

图3 | 富集gmt背景文件格式示例

04

通路列表文件 

输入指定需要绘图通路列表文件,文件中的通路均会输出对应结果图。文件要求无表头且每行是单个通路。

图4 | 通路列表文件格式示例

05

合并绘图通路列表文件

输入指定需要绘图通路列表文件,文件中的通路将合并绘制在一张结果图内展示。文件要求无表头且每行是单个通路。该文件为通路列表文件的子集。

图5 | 合并绘图通路列表文件格式示例

参数调整

01

主要参数

图6 | 主要参数

02

常用参数

图7 | 常用参数

作图步骤

01

主要参数调整

①请于主要参数中的输入文件、差异分组信息文件处上传您所要进行分析的文件,如果此处未上传文件,您将无法得出结果。上传成功后,将会于“选择文件”后显示您上传的文件名;

此处为上传成功示例:

图8 | 文件上传成功示例

②物种:选择对应物种。默认为自定义gmt文件;

③输出文件夹名称:不能含有空格等特殊字符。可接受默认或自行输入;

④基因集最小基因数量,不生成结果可以尝试调小该参数:默认为15;

⑤基因集最大基因数量,不生成结果可以尝试调大该参数:默认为500;

⑥分析方法:我们提供5种分析方法,分别为signal_to_noise、t_test、ratio_of_classes、diff_of_classes、log2_ratio_of_classes。默认为signal_to_noise;

⑦任务命名:对结果进行命名用于区分不同的任务,默认为当前工具名称_结果创建日期时间,在历史记录的注释处可见,可接受默认或自行输入。

02

常用参数调整

①如果物种选择了自定义gmt文件,请于富集gmt文件处上传富集gmt背景文件。如果选择了某个具体的物种、选择了某个数据库类型并在此处上传了富集gmt文件,则默认使用用户上传的富集gmt文件;

此处为上传成功示例:

图9 | 富集gmt文件上传成功示例

②数据库类型:选择对应的某个具体物种的背景数据库,我们提供5种数据库,分别为KEGG、GO-BP、GO-CC、GO-MF、GO。如果前面选择自定义gmt文件则无需修改此参数;

③过滤表达值均为0的基因:选择是否对输入文件进行过滤,去除表达值均为0的基因。默认为否;

④传入指定需要绘图通路列表文件,文件中的通路均会输出对应结果图。文件要求无表头且每行是单个通路;

此处为上传成功示例:

图10 | 绘图通路列表文件上传成功示例

⑤指定绘图通路:如果已上传绘图通路列表文件,则无需再次填写本参数。如果未上传上述文件,则在此参数输入指定通路,输入时请注意通路间需要换行输入;

⑥绘制图片条目数:设置绘制的top富集条目的数量(绘制图片的数量),默认为top20;

⑦输入选择的通路列表文件,文件中的通路将合并绘制在一张结果图内展示。文件要求无表头且每行是单个通路;

此处为上传成功示例:

图11 | 合并绘图的通路列表文件上传成功示例

⑧合并绘图的通路:如果已上传合并绘图的通路列表文件,则无需再次填写本参数。如果未上传上述文件,则在此参数输入指定通路,输入时请注意通路间需要换行输入;

⑨log转换:对表达值进行log转换,可选择无、log2或log10。默认为无。

03

最终提交

文件上传成功后请

如图所示区域:

图12 | 工具预估耗时提示处

结果分析

(以下图片为使用示例文件以及参数均选择默认的结果)

01

结果下载

分析结果未在工具区直接展示,您可以

图13 | 结果展示处

结果下载成功示例:

图14 | 结果下载成功示例

结果文件内容示例:

图15 | 结果文件夹内容示例

02

结果说明

5.2.1 gseaplot GSEA分析结果图

图16 | GSEA分析图示例

这张结果图的主要内容可分为4部分:

①富集分数(enrichment score, ES)的分布图,绿线为所有基因的ES分布情况,该曲线在Y轴绝对值最大的位置对应该基因集的富集分数。当ES>0时说明通路上调,峰值左侧为核心基因,ES<0说明通路下调,峰值右侧为核心基因;

②基因集基因分布图,竖线表示该基因集中基因在整个排序中的位置。若竖线集中分布在基因排序列表的前端或后端,说明该基因集通路上调或下调;若竖线较均匀分布在基因排序列表中,则说明该基因集通路在比较的两个数据中无明显变化;

③Colorbar,即排序矩阵的颜色映射, 红色部分对应的基因在实验组中高表达,蓝色部分对应的基因在对照组中高表达;

④排序矩阵分布图,排序后所有基因rank值的分布,以灰色面积图展示。

5.2.2 热图

这张热图展示的是位于该基因集下的基因在所有样本中表达量的分布,其中每一列代表一个样本。每一行代表一个基因,颜色从蓝色过渡到红色表示基因表达量从低到高。

图17 | 热图示例

历史记录

图18 | 历史记录示例

常见Q&A

请问需要指定绘图通路应该怎么做,结果会怎么展示?

您好,首先感谢您的咨询。您可以在常用参数中的“绘图通路列表文件”处上传指定需要绘图通路列表文件,或者在“指定绘图通路”中输入指定通路,不论采用上述哪种方法,您输入的指定绘图通路会分别输出对应的gseaplot GSEA分析结果图以及热图。

请问想要合并通路绘图应该怎么做,结果会怎么展示?

您好,首先感谢您的咨询。指定绘图通路后,您需要在“合并绘图的通路列表文件”处上传您想要进行合并绘图的通路列表文件,或者在“合并绘图的通路”中输入指定通路,不论采用上述哪种方法,您输入的指定绘图通路会分别输出对应的gseaplot GSEA分析结果图以及热图,输入的需要进行合并绘图的通路将合并绘制在一张结果图内展示。

请问除了上述示例用途,该小工具还有什么功能呢?

您好,首先感谢您的咨询。我们的小工具还支持选择KEGG/GO数据库进行某个level或某个功能分析的绘图。

请问该小工具支持的物种有哪些?

我们支持的物种有选择人、小鼠、大鼠 、拟南芥、大豆、籼稻、粳稻、酿酒酵母、线虫、家蚕、斑马鱼、猪、牛、山羊、羊、家兔、小麦、玉米、烟草以及自定义的其他物种。

使用上面介绍的GSEA分析小工具,不要求您有编程基础,只需按要求上传文件即可进行GSEA分析,感兴趣的话就来欧易云平台试试吧。

猜你想看

1、探“云”指南 | 微生物和代谢物相关性分析怎么做?

2、探“云”指南 | 欧易云小提琴图交互速速mark!

3、探“云”指南 | 全盘输出:欧易云CCA/RDA分析

4、探“云”指南 | 科学与美观:欧易云花瓣图

发布需求
作者
头像
仪器推荐
文章推荐