分析测试百科网

搜索

分析测试百科网 > 行业资讯 > 微信文章

蛋白组学发文必看,iProX又添新功能啦~(附带上传操作可收藏)

鹿明生物
2022.1.25
67d0d4a1feabb1d1519e0648f2ebaf7d.gif


● 前言



2022年01月北京蛋白质组研究中心研究员朱云平课题组在Nucleic Acids Res. 期刊发表的题为 “iProX in 2021: connecting proteomics data sharing with big data ”的综述文章,总结了自2019年iProX在《核酸研究》上发表以来的主要进展,包括全面的数据提交和统计、iProX的大数据架构和基础结构、以及USI、RESTful Web Service API、iProX中公共数据的再分析和可视化。


c672cb7115b32a4ffb01b4bbff60b3c8.png


中文标题:iProX, 2021: 蛋白质组学数据共享与大数据互联

研究对象:蛋白质组学整合资源库

发表期刊:Nucleic Acids Res.

影响因子:16.971

发表时间:2022年1月

合作单位:北京蛋白质组研究中心,中山大学计算机科学与工程学院,欧洲生物信息研究所-欧洲分子生物学实验室,安徽医科大学基础医学院


● 背景介绍



蛋白组学是以蛋白质组为研究对象的科学,目前已经在生命科学研究中发挥着越来越重要的作用。蛋白组学的快速发展产生了大量数据,而大数据平台的出现有助于巨量数据的处理。


ProteomeXchange(PX)联盟是一个蛋白组学数据库,有助于蛋白组学数据的共享,成员包括PRIDE,PeptideAtlas等。iProX是一家在中国建立的蛋白质组学数据与知识中心,于2017年加入PX联盟,旨在促进蛋白质组学资源在世界范围内的共享,是现在国内上传蛋白原始数据使用最多的平台之一。那么接下来就一起跟随小编看看iProX在2021的最新进展吧。




f840cf39409859ea96ea2824a9f643e9.png



1. 存储库的当前状态和更新

截至2021年8月底,一共有1526 数据集提交到iProX,共计92.42TB。从2017年到2021年,蛋白质组学数据集的数量和规模迅速增长,大于500GB的大数据集和大于1TB的超大数据集被提交到iProX。iProX最常见的物种有Homo sapiens、Mus musculus等;此外,iProX还收集了一些蛋白质组学研究较少的物种的数据集,例如Haemaphysalis longicornis,Anabaena sp. PCC 7120等,包含了ProteomeXchange中这些物种几乎所有的蛋白质组数据集。数据量的扩增有利于蛋白组学进一步的发展,也有利于研究者利用蛋白组学这一工具,更快更好地解决面临的生物学问题。

b11dc5687a73f898039f691a7caefdcd.png
27966b57bd0807e8548fccacfcd531df.png
7dcab41b71e902bc2156287cd9448932.png


图1 | 在iProX中公开发布的数据集(截至到2021年8月)

(a)每月累计数据大小和提交数据集数

(b)10个最大的发布的数据集

(c)每年提交的数据集的累积数量

(d)iProX中公开数据集的物种分布

(e)大于1TB的数据集的分布

(f)iProX中数据集的三类物种(动物、植物和微生物)分布


2.iprox的大数据架构和基础结构

构建了一个可扩展性高的超融合体系来支持提交过程;使用hadoop存储大量的蛋白质组学数据,存储容量增至1PB;使用了一个分布式RESTful-styled Elastic Search引擎可在一秒钟内检索数百万条记录。通过RESTful API接口,将基于web和基于Asepra 的上传和下载步骤重构为独立的子传输服务。搜索元数据,识别蛋白质、多肽和光谱也包含在子服务中,以在不中断提交的情况下实现秒级响应。iProX数据库在不改变数据提交的前提下提高了它的可用性、可靠性和实时响应性。同时还在广州国家超级计算中心配备了数据恢复和实时备份系统,当北京的主站点不可用时,可以在几分钟内接管服务。这些提升将加速实验人员大量数据的处理过程,也避免在数据传输过程中产生中断。

6953b1c80fd353883583b95423c57dce.png

图2 | 基于hadoop的iProX大数据架构和基础结构


3. iProX 2021新功能

基于hadoop大数据平台的实现,iProX开发了几个新功能,包括通用频谱标识符(USI)的实现、iProX公共数据的再分析和可视化,以及RESTful Web Service APIs。

a33fb6f9da520f190162f038a69627df.png

图3 | iProX 2021实现的新功能


4.通用图谱识别符(USI)

在iProX中,USI通过Elastic Search将图谱定位到HBase中。iProX支持USI在http://www.iprox.cn/page/spectrum.html上查找和显示HBase中的2000万个图谱。


5.公共数据的再分析和可视化

建立了高效的再分析流程,并将其应用于iProX发布的数据和分析公共数据集。这一过程产生了数以百万计的高质量图谱和蛋白识别,所识别的蛋白质提供了UniProt的登录号和相关的URLs。目前,这种再分析可以处理DDA 数据。我们将上述再分析流程应用于公共数据集IPX0000937000,并在控制错误发现率下获得了2000万个新标识。所有这些标识都被解析并存储到一个HBase集群中。这些再分析数据可以在基于Elastic search引擎的新搜索界面上访问,并且可以通过IPX登录号追溯到原始数据集。我们将重新分析所有的公开数据,建立一个大规模谱库,并交叉引用其他外部数据集,如UniProt


6.iProX RESTFUL WEB SERVICE API

iProX提供一个RESTful Web Service 应用程序接口(API),来自动获取蛋白信息。它报告数据集的元数据,或肽、蛋白质和光谱数据的再分析,包括获取特定数据集或数据集列表的元数据,并收集肽型、蛋白质和肽谱匹配(PSM),或USIs引用的图谱列表。这些提供在以下网址:https://www.iprox.cn/proxi/swagger-ui.html。


总结



iProX可以支持PB级数据存储、数以亿记图谱记录、秒级延迟服务能力,满足快速增长的蛋白质组学领域的需求。iProX在促进全球蛋白质组学数据的分析和共享方面发挥着重要作用。这些发展将增强科研人员的研究能力,同时也将促进蛋白质组学在系统生物学研究发挥越来越重要的作用。


小鹿推荐


蛋白质组学通过研究生物样本中蛋白质组成和变化,从而推动疾病的病理机制研究,为临床诊断和预后提供潜在生物标志物。目前,蛋白质组学越来越多的应用于研究当中,其对应的研究方法,数据库及其研究平台也在不断更新,以满足蛋白组学的更高要求。欧易/鹿明生物公司为广大科研工作者提供多种蛋白组学检测服务,包括:LC-MSMS蛋白质谱鉴定、iTRAQ/TMT标记定量蛋白组学、Label Free非标记定量蛋白组学、DIA蛋白组学、PRM靶向蛋白验证。


蛋白质组数据如何轻松上传到公共数据库?cc5e970576741f3841d8865167acd04e.png(点击下方图片)

b879955270cd96334ade16cf63cc2f3f.png



文末看点 | lumingbio


鹿明生物引入了布鲁克tims TOF pro,并引入了与其高MSMS扫描速度匹配的Evosep One 高通量色谱,打造捕获离子淌度的4D蛋白质组学分析体系。由于离子淌度分离概念的引入使得蛋白质组学进入了4D新时代。4D-Proteomics™是在3D分离即保留时间(Retention time)、质荷比(m/z)、离子强度(Intensity)这三个维度的基础之上增加了第四个维度,离子淌度(Mobility)的分离(图1),进而大幅度的提高扫描速度和检测灵敏度,带来蛋白质组学在鉴定深度、检测周期、定量准确性等性能的提升。欢迎各位老师前来咨询哦~


4eb44389c4eb35ee1ddb58c807916edd.jpeg
aa38e3387ddf4b0fccc276a1b571d2be.png

长按扫码咨询鹿明生物

技术工程师

项目咨询|样本咨询


猜你还想看


蛋白质组数据如何轻松上传到公共数据库?
代谢组学数据如何轻松上传到公共数据库?
预警!2022年经典分析绘图软件,总有一款适合你
【SCI·绘图】升级版·小提琴图-云雨图(带R代码分享)


END

饭饭 撰文

欢迎转发到朋友圈

本文系鹿明生物原创

转载请注明本文转自鹿明生物

b71fb79d8174544448037542a3ec567a.png

我知道你在看

3e6c0f2ec039a02fd01b7096ddbc75a2.png
351f2a4f27849adbdcf3410985edcc1e.gif

点“阅读原文”了解更多

发布需求
作者
头像
仪器推荐
文章推荐