差异分析就是分析两组数据是否有差异,这就涉及到“显著”的定义了。通常是对两组数据的差异倍数进行统计学检验,得到的pvalue达到某个阈值,则为显著差异。在转录组的基因差异表达分析中,一般的筛选标准是基因表达差异倍数大于2、并且FDR≤0.05为显著差异的基因,当然这个标准也可以根据实际数据调整,如差异倍数下调为1.5、以及FDR≤0.01等。FDR可以选择qvalue或pvalue作为筛选标准。
产品优势
本小工具旨在找出不同样本间的差异表达情况,无需进行代码的学习,只需按照要求处理您的数据上传便可一键绘制出美观专业的差异表达基因的条形图,聚类热图以及火山图。
云工具链接:
https://cloud.oebiotech.com/task/detail/diff-ngs/(
数据准备
您需要按照相应格式来处理数据整理成如下文件:
01
counts文件
counts文件第一列为基因名称,样本名称列对应的数值为各样品中的counts数。(附件中注释信息不影响差异分析)
图1 | counts文件格式示例
02
差异分组文件
差异分组文件请完全按照示例样式填写,支持多个差异分组同时分析。
case列:实验组样本,多个样本时请以英文逗号分隔;
case_name列:实验组组名;
control列:对照组样本,多个样本时请以英文逗号分隔;
control_name列:对照组组名;
replicate列:如有生物学重复,填写yes,无则no;
paired列:如为配对样本,则填yes,非配对为no;
请您注意:如果为配对分析,实验组对照组样本顺序必须一一对应且数目相等,最后一列差异分析方法必须用DESeq2
method列:差异分析方法,可以为DESeq或DESeq2。
图2 | 差异分组文件格式示例
03
表达量矩阵文件
第一列为基因名称,样本名称列对应的数值为各样品中相应表达量。(附件中注释信息不影响差异分析)
图3 | 表达量矩阵文件格式示例
作图步骤
01
准备工作
请于上传文件前首先查看“重要提示”的提示信息以及“使用说明”中的示例文件格式,根据提示进行文件准备。
02
主要参数
图4 | 主要参数
03
主要参数设置
①请于主要参数中的counts文件、差异分组文件处上传您所要进行分析的文件,为必填参数。在“选择文件”后显示上传的文件名说明上传成功。
此处为上传成功示例:
图5 | 文件上传成功示例
②显著性筛选标准:选择使用p值或者q值进行差异筛选,默认为“q值”;
③显著性筛选阈值:通常使用0.05,您可按需设定;
④差异倍数:通常使用2,必须大于0,您可按需设定;
⑤数据类型:测序数据类型,默认为“gene”,您可下拉菜单选择miRNA或lncRNA;
⑥任务命名:对结果进行命名用于区分不同的任务,默认为当前工具名称_结果创建日期时间,在历史记录的注释处可见,可接受默认或自行输入。
04
常用参数
图6 | 常用参数
05
常用参数设置
①想要得到差异基因聚类热图结果,请于常用参数中的表达量文件处上传您所要进行分析的文件,在“选择文件”后显示上传的文件名说明上传成功;
此处为上传成功示例:
图7 | 文件上传成功示例
②字体类型、字体样式:可接受默认或在下拉菜单选择。
06
最终提交
文件上传成功后
如图所示区域:
图8 | 工具预估耗时提示处
结果分析
(图片为使用示例文件及其他参数保持默认时的结果)
01
结果展示及下载
分析结果保存6个月,请注意及时下载保存,
图9 | 结果展示处
结果文件内容示例:
图10 | 结果文件夹内容
02
结果说明
1、差异表达基因条形图
多个分组会在同一张图中展示。条形图中条形的高度为A、B组差异基因的数量,根据右侧图例可知,红色表示上调基因,蓝色表示下调基因。
图11 | 差异表达基因条形图示例
2、差异表达基因聚类热图
每个差异分组分别生成一张热图。一列表示一个样本,一行表示一种基因,其中的每个小方格都代表一个基因。根据右侧的色彩变化尺我们可以看出红色表示高表达基因,蓝色表示低表达基因,且颜色越深表示数值越大,白色表示值为0。左侧树状图表示不同基因的聚类分析结果,图片上方的树形图表示不同样本的聚类分析结果。
图12 | 差异表达基因聚类热图
3、差异表达基因火山图
每个差异分组分别生成一张火山图。图中每个点表示一个基因,横纵坐标分别表示实验组(Case)和对照组(Control)生物学重复差异倍数FC值的对数值。根据左上图例可知,红色表示显著上调基因,绿色表示显著下调基因,灰色表示差异不显著的基因。
图13 | 差异表达基因火山图
历史记录
图14 | 历史记录示例
常见Q&A
请问数据矩阵可以存在重复基因吗?
您好,首先感谢您的咨询。输入数据矩阵中不允许存在重复基因,在分析过程中程序将删除对应基因数据。
请问对上传的counts文件有什么要求吗?
您好,首先感谢您的咨询。counts文件要求是由整数组成、未进行标准化且必须有在所有样本中表达量均大于0的基因,否则DEseq无法运行。
往期推荐
探“云”指南 | STRING蛋白互作一键化分析
探“云”指南 | 如何进行共表达相关性分析
探“云”指南 | 一文教你WGCNA分析
探“云”指南 | 微生物ROC曲线