LncRNA测序
illumina
标准分析:
1) 原始数据预处理:去除接头污染、低质量序列得到clean data,去除核糖体RNA数据,数据产出统计及测序数据质量评估。
2) 序列拼接比对:比对分析、数据拼接为后续做准备;基因组mapping,转录本组装。
3) lncRNA筛选及注释:已知lncRNA(采用NONCODE、lncrnadb、Ensembl、NCBI、UCSC等多个lncRNA数据库的集合或者自定义数据库筛选并注释已知lncRNA;);多种算法(PhyloCSF预测算法与CPC预测算法)预测新的lncRNA。
5) lncRNA定量及差异分析:差异分析需2个或2个样品以上。
6) 差异lncRNA靶基因预测:通过共表达或者位置关系分析lncRNA的靶基因。
7) 差异转录本分析:利用软件比较各转录本在不同样本间的差异表达,筛选差异转录本。
8) 结构分析:AS/SNP/InDdel分析,分析转录本结构变化。
9) 功能通路富集分析:差异lncRNA靶基因的GO analysis;差异lncRNA靶基因的pathway analysis。
高级数据分析
● Gene Expression Trend Analysis (时序分析)
对于按照处理时间、浓度、疾病恶化程度顺序设计的序列实验,为了筛选出随样本顺序变化影响最显著、最主流的lncRNA群,需要对样品的差异lncRNA进行表达趋势分析。应用模糊聚类等机器学习方法,计算出随着时间、浓度梯度或恶性程度等变化过程中lncRNA的表达趋势,得到相应的主流表达趋势,其所属lncRNA的表达变化与时间、浓度、恶性程度具有显著性联系的lncRNA,主流表达趋势所属lncRNA将作为进一步研究的目标基因。
● Co expression Network(lncRNA-mRNA)
Co expression Network是分析lncRNA与mRNA相互作用关系的创新工具。Coexpression Network根据lncRNA及mRNA的实测值,通过共表达计算方法构建网络。通过lncRNA周边与其共表达的mRNA来预测未知lncRNA的功能。Coexpression Network可以帮助发现lncRNA与mRNA之间可能存在的作用关系,能够找到影响mRNA表达的lncRNA,从而发现网络中起中心调控作用的lncRNA及发现lncRNA可能存在的新作用机制。由于共表达调控网络是基于芯片的实测表达值运算的结果,故而突破了传统分析中基因注释不齐全的限制,大大增加了研究的创新性。结果样式如下:
● lncRNA Target Pathway Network
根据差异lncRNA和被调控靶基因的显著性通路,利用lncRNA和靶基因通路的属性,构建lncRNA Target Pathway Network。该网络反映目标lncRNA对Pathway的作用关系。根据网络中各lncRNA的位置函数计算出网络特征值。特征值最高的lncRNA处于网络的枢纽性地位,该lncRNA对多个Pathway和样本状态有重要的调控价值,同时,评价Pathway在网络中的特征值,可以发现差异lncRNA所调控的核心通路。
● ceRNA Network
分别对miRNA与mRNA、miRNA与lncRNA进行靶向预测,并根据表达趋势取负相关。根据结果找出具有mRNA-miRNA-lncRNA关系的mRNA/lncRNA对。计算差异基因和差异lncRNA间的共表达关系,挑选出互为正相关的基因与lncRNA。根据上述分析结果,选出存在于mRNA-miRNA-lncRNA关系中,并互为正相关的mRNA/lncRNA对。这对mRNA/lncRNA即可能互为ceRNA,再通过MREs的数量和结合分值评估ceRNA的竞争能力。结果样式如下: