分析测试百科网

搜索

分析测试百科网 > 行业资讯 > 微信文章

干货分享 | 高通量测序原始数据上传教程

中科新生命蛋白代谢多组学
2023.3.28

必备软件

Aspera 插件  下载网址 :https://www.ncbi.nlm.nih.gov/Traces/sra_sub/sub.cgi

每个过程对应的网址:

NCBI注册  网址:https://www.ncbi.nlm.nih.gov/account/

申请BioProject  网址:https://submit.ncbi.nlm.nih.gov/subs/bioproject/

申请BioSample  网址:https://submit.ncbi.nlm.nih.gov/subs/biosample/

上传SRA  网址:https://www.ncbi.nlm.nih.gov/Traces/sra_sub/sub.cgi

数据整体上传的流程图如下:

1

注册NCBI

打开 NCBI,

很多同学现在打开NCBI想注册/登录的时候,会发现如下提示:强制性使用第三方进行注册/登录。

继续往下看就能找到解决办法,NCBI支持用各种第三方账户:

根据经验,ORCID账号和Microsoft注册起来都很方便,只需要个人邮箱并按要求填写信息后,

2

创建Bio-Project

01

输入BioProject网址,先进行个人信息完善,以便成功申请到 Bio-Project。

02

A

Submitter界面直接

B

Project Type 界面,选择 Raw sequence reads,有组装数据的也选择 Genome sequencing and assembly;Sample scope 有 5 类选择:单一样本,多个样本,多物种,环境样本,合成样本等,可按照实际

C

Target 界面,只需填写研究物种拉丁文名即可;

D

General Info 界面,选择数据释放日期(可以立马释放,也可指定日期),Public description 部分对自己的研究简要描述即可;

E

BIOSAMPLE、PUBLICATIONS 界面可直接跳过,最后

3

创建Bio-Sample

01

输入BioSample网址,

02

Submitter界面直接

03

General Information 界面,选择数据释放日期和样本个数,

04

Sample Type 界面,有 10 种类型描述样本,例如病原体、微生物、模式生物、无脊椎动物、人、植物样本等,这里我们选择“Plant Sample”  ,

05

Attributes界面,可以上传表格,也可以自行填写表格,

这里我们推荐首次上传原始数据的用户选择自行填写表格;

其中,必填字段用*星号标记;标有**、††或†的字段为选填项,但至少填写一个。

如上传表格数据,以下载Excel表格为例进行操作:

这里需要注意一下表头的颜色,其中绿色为必填项,蓝色为选填项,黄色为非填项。如果绿色的任何必填字段的信息不可用,可输入“not collected”、“not applicable”或“missing”替代。蓝色虽为选填项,但至少填写一个,同样出现何必填字段的信息不可用,请输入“not collected”、“not applicable”或“missing”替代。黄色可以不予填写。每一个单元格填写是有格式要求的,可以

06

完成后,确认信息无误,

4

数据上传SRA

SRA简介:SRA(Sequence Read Archieve)数据库是NCBI搭建的存放原始测序数据的平台。SRA能兼容不同测序平台的数据,比如Sanger测序、Illumina测序、PacBio测序等,所以无论是基因组、重测序、转录组、微生物扩增子,还是宏基因组等组学分析,都可以将原始数据上传SRA。

01

02A

Submitter 页面

B

进入General Information页面,填入Existing BioProject号码,然后选择数据释放日期,需与前两步数据释放日期一致,之后

C

进入SRA metadata界页面,填写对应表格信息,这里我们推荐直接在网页版上填写表格,需要注意的地方如下:

BioSample accession:注册好的Biosample编号直接填写;

Library ID:它是唯一的,我们可以使用物种拉丁文名命名。

Library strategy可以选择WGS,Library source可以选择Genomic,Library selection可以选择size fractionation,Library layout可以选择paired,Platform可以选择illumina,instrument model可以选择Illumina NovaSeq 6000;

Filetype可以选择fastq;后面的Filename 可依次填写M_sinensis_A_illumina_R1.fastq.gz、M_sinensis_A_illumina_R2.fastq.gz等,填写完毕后

D

Files界面:数据上传的选择方式,若单个文件数据量小于10G,样本数小于300个,我们推荐Aspera方式上传(如下图);

然后我们

注意事项:

(1)所有样本的原始数据需放在同一目录下;

(2)原始数据为 fastq 格式的压缩文件;

(3)若为双端测序,需要提供双端的原始数据,即 R1 端和 R2 端。

接着会显示上传界面,网页版显示如下:

Aspera软件界面显示如下:

03

待所有数据上传成功后,我们就可以进入确认界面,

中科优品推荐

【中科新生命】具有丰富的转录组项目经验,建立了完整的多组学服务平台,通过多组学生物信息学报告的剖析和引导,能够帮助老师们从庞大而又复杂的多组学数据中迅速理出线索,充分利用好组学大数据带来的系统生物学信息。

<<  滑动查看下一张图片  >>

我知道你

在看哦

发布需求
作者
头像
仪器推荐
文章推荐