分析测试百科网

搜索

分析测试百科网 > 行业资讯 > 微信文章

【第二篇|数据预处理】甲基化芯片分析工具SeSAMe教程

Illumina因美纳
2023.9.12

上一期我们给您介绍了因美纳目前提供的三种主要的甲基化芯片产品,这一期我们来聊一聊甲基化芯片在肿瘤和遗传领域的典型应用,以及如何利用甲基化芯片分析工具SeSAMe进行芯片数据的预处理。

组织病理学诊断对中枢神经系统肿瘤亚型判断存在困境——上百种CNS亚型,组织学表现相似,病理学家对罕见肿瘤类别难下结论。为了解决这个问题,DKFZ (德国癌症研究中心)的研究人员利用Methylation EPIC芯片分析了2,800余例癌症样本的甲基化特征,涵盖了上百种CNS肿瘤类型 (根据WHO的分类以及临床诊断结果)。DKFZ构建的甲基化谱分类器,可明确区分82种基于甲基化指纹的CNS肿瘤类别。在千余例临床样本验证中,甲基化谱分类器提供了额外的、临床相关的分型信息,对26.9% 的病例做出了新的分类诊断,指导患者进行最佳治疗方案选择。2016年版WHO CNS分类指南中已经引入了分子学特征进行肿瘤分类, 2021年WHO CNS5作为最新版脑和脊髓肿瘤分类国际标准, 也纳入DNA甲基化谱分析。

1. Capper D, Jones DTW, Sill M, et al. DNA methylation-based classification of central nervous system tumours. Nature. 2018;555(7697):469-474. doi:10.1038/ nature26000

肉瘤是由结缔组织转化引起的肿瘤,占实体瘤病例的不到1%,每年发病人数在18万人左右。由于其罕见特性,分子病理学家可能无法正确分类肉瘤,目前已知的错误分类率约为20-25%。RNA-Seq检测在肉瘤分类中非常常用,但RNA层面的检测并不是完全有用,因为并非所有肉瘤都具有特征性融合,目前的数据显示约有三分之二的病例缺乏融合指针。DKFZ构建的甲基化肉瘤分类器使用了1077例临床样本,涵盖62种不同的分类亚型,并且在428例验证样本中成功鉴定了322例的具体分型。

2. Koelsche, C., Schrimpf, D., Stichel, D. et al. Sarcoma classification by DNA methylation profiling. Nat Commun 12, 498 (2021). https://doi.org/10.1038/s41467-020-20603-4

甲基化分类器的研究已经细化并重塑了中枢神经系统肿瘤分类的前景,结合病理诊断结果,分类器已经在实际临床中证明了其诊断精度的提高,尤其是针对组织学上分类模糊的病例而言。类似的方法也可以在其他肿瘤群组中使用。目前,DKFZ已经在拓展包括血液肿瘤分类器、泛肿瘤分类器、神经肌肉疾病分类器在内的多种不同应用,可以被应用于包括乳腺癌、咽喉癌、子宫内膜癌、肝癌和其他原发灶不明的肿瘤中去。在可以预期的未来,甲基化芯片将有希望为超过90%的癌症提供甲基化分类证据,进一步提升临床诊断,优化病人健康管理。

3. Koelsche C, von Deimling A. Methylation classifiers: Brain tumors, sarcomas, and what''s next. Genes Chromosomes Cancer. 2022;61(6):346‐355. doi:10.1002/gcc.23041

近年来,EWAS数据已与数学模型配对以创建甲基化风险评分。迄今为止的文献指出,基于甲基化的风险评分MRS比多基因风险评分PRS的准确性要高得多。这可能是因为我们的基因型通常不会在我们的一生中发生变化,而我们的表观基因组更具动态性,通常反映我们当前的生物状态,包括我们的年龄,我们可能正在发展的疾病,以及环境因素如何影响我们生物水平。在一项研究中,加州大学洛杉矶分校的研究人员假设MRS将是一个很好的表型预测工具,MRS可能会补充PRS来预测复杂的疾病和表型。为了测试这一点,他们比较了831名患者的基因分型和甲基化风险评估结果,研究发现甲基化风险评分在各种标准中优于 PRS,而且MRS还可以使研究人员获得测试患者最近的环境暴露风险等因素。

1. Thompson, M., Hill, B.L., Rakocz, N. et al. Methylation risk scores are associated with a collection of phenotypes within electronic health record systems. npj Genom. Med. 7, 50 (2022). https://doi.org/10.1038/s41525-022-00320-1

临床表型和基因组关联的复杂程度是遗传疾病日常诊断和临床管理中日益严峻的挑战。基因组变异的功能上的后果的判断和临床影响的决策涉及独特的、疾病特异性的DNA甲基化位点。格林伍德基因组中心使用EpiSign,一种通过评估全基因组甲基化表征来识别经过验证的和可重现的表观遗传特征的检测方法,来检测疾病特异性的甲基化模式。评估这些不同的甲基化模式可以作为诊断性检查中这些疾病的有用筛查工具,也可以通过更有针对性的方式帮助解决临床意义不确定的变异。2023年2月推出的EpiSgn v4版本目前可以识别包括糖尿病、心血管疾病、神经发育异常等在内的70多种疾病类型。

1. https://ggc.org/EpiSign

操作脚本

library(sesame)

dest_dir = tempdir()

dest_dir

setwd(dest_dir)

download.file("https://ftp.ncbi.nlm.nih.gov/geo/samples/GSM2178nnn/GSM2178224/suppl/GSM2178224_184AA3_Grn.idat.gz", "GSM2178224_184AA3_Grn.idat.gz")

download.file("https://ftp.ncbi.nlm.nih.gov/geo/samples/GSM2178nnn/GSM2178224/suppl/GSM2178224_184AA3_Red.idat.gz", "GSM2178224_184AA3_Red.idat.gz")

list.files(pattern=”*.idat”)

s = readIDATpair("GSM2178224_184AA3",verbose=TRUE)

sesameQC_calcStats(s,"numProbes")

mft = sesameDataGet(“EPIC.address”)$ordering

s = readIDATpair("GSM2178224_184AA3",manifest=mft)

library(parallel)

mclapply(searchIDATprefixes(“.”), readIDATpair)

sesameQC_calcStats(s)

qc = sesameQC_calcStats(s,"intensity")

sesameQC_rankStats(qc,platform="EPIC")

betas = getBetas(s)

head(betas, 20)

head(s$mask)

s0 = resetMask(s)

sum(s0$mask)

s1 = qualityMask(s0)

s2 = pOOBAH(s1)

sum(s2$mask)

pval = pOOBAH(s, return.pval=TRUE)

s3 = addMask(s1, pval>0.05)

sum(s3$mask) == sum(s2$mask)

BiocManager::install("pals")

sesameQC_plotIntensVsBetas(s)

s4 = noob(s)

sesameQC_plotIntensVsBetas(s4)

sesameQC_plotRedGrnQQ(s4)

s5 = dyeBiasNL(s4)

sesameQC_plotRedGrnQQ(s5)

sesameQC_plotIntensVsBetas(s5)

betas = do.call(cbind, mclapply(searchIDATprefixes(“.”), function(px)getBetas(dyeBiasNL(noob(pOOBAH(readIDATpair(px))))), mc.cores=2))

head(betas)

betas2 = openSesame(“.”)

all(betas == betas2, na.rm=T)

.

发布需求
作者
头像
仪器推荐
文章推荐