DeepCpG
单细胞甲基化测序技术使得我们能分析细胞群体间甲基化程度的异质性,但是该技术一大局限性就是测序得到的CpG二核苷酸位点覆盖度有限,因此发展一种预测缺失甲基化的方法对于实现单细胞全基因组分析至关重要。DeepCpG使用深度学习学习模型来预测单细胞测序数据中甲基化改变。通过测试5种人与小鼠的单细胞甲基化数据,该方法表现了出比以往方法更强的预测能力。
流程
- 背景
DNA甲基化与许多生物学过程有关,如:染色体不稳定性,X染色体失活,细胞分化。
单细胞测序技术能够在单个细胞分辨率的基础上分析甲基化的调节与变化情况,从而发现了新的联系 表观遗传和转录异质性。
然而,单细胞测序受技术限制,覆盖度很低,scBS-seq约为20-40%。
因此,第一个关键步骤是预测缺失甲基化状态使得能够进行全基因组分析。
目前,现有方法需要先验定义特征和基因组注释,通常是限于一组狭窄的细胞类型和条件。
- 流程
构建了2个神经网络——双向GRU和CNN。
- architecture
CNN:1个多通道卷积层+多通道pooling层若干+1个全连接层。
卷积核长度为L,池化层layer数目由交叉验证得到,池化层步长为P。
- input
双向GRU的输入数据:测到的以0,1编码的甲基化状态,?代表了缺失值,即需要通过模型修复的值;
CNN的输入数据:one-hot编码过的DNA序列,长度1001bp,目标CpG位点作为序列的中点。
- bagging
把双向GRU和CNN的输出结果整合到一个包含512个神经元的隐藏层上,再经过一个隐藏层,最终输出softmax函数归一化后的概率。
output结果可以估算细胞组的低覆盖度甲基化谱和发现与甲基化状态和细胞间相关的DNA序列基序变异性。
激活函数采用ReLU。
- 训练数据
scBS-seq:18个serum和12个2i mESCs测序数据。
scRRBS-seq:25个human HCCs和6个HepG和6个mESCs测序数据。
甲基化的定义:该位点回帖的碱基显示甲基化数目>非甲基化数目,则定义该位点为甲基化。反之。
训练集:染色体1, 3, 5, 7, 9 and 11
测试集:染色体2, 4, 6, 8, 10 and 12
验证集:其他染色体
- 模型训练:
损失函数采用负对数似然+L2正则化。
此外,训练中还运用了dropout正则化。
优化函数采用mini-batch SGD,一个batch=128。
结果
作者对比了DeepCpG与其他模型的预测能力,相关缩写如下:
- WinAvg,应该是最简单的想法,即一个细胞中一个CpG位点周边3-kb的平均值;
- CpGAvg, 即一个位点在所有细胞中的均值;
- RF, 一个random forest模型,利用周边的CpG信号以及DNA序列(感觉上本文的简单本质就是把random forest换成了deep learning);
- RF Zhang, 另一个random forest模型,利用很多的genomic或者epigenomic相关信息,不过是针对bulk cells设计的。
评价指标采用AUC,F1 score,MCC score,结果如下:
可以发现DeepCpG表现最为出色。
此外,他们还分析了第一个卷积层的输出,发现得到的特征都类似于motifs的position weight matrices,即可以检查哪些motifs对最终的模型又什么影响。他们发现通过对DNA序列应用CNN,卷积层的第一层的生物学解释就是各种组合的motifs。
结论
主要结论:
- 预测单细胞甲基化状态/推测缺失的甲基化状态。
- 分析DNA序列特征对DNA甲基化的影响,研究DNA突变和邻近的CpG位点对CpG甲基化的影响。
- 能够分析低覆盖的单细胞甲基化数据。对缺失的甲基化状态的准确估算有助于全基因组下游分析。
- 卷积结构允许在更大的DNA序列上下文中发现预测基序,以及在邻近的CpG位点捕获复杂的甲基化模式。
参考
[1] Christof Angermueller et al. “DeepCpG: accurate prediction of single-cell DNA methylation states using deep learning”. In: Genome Biology 18.1 (Apr. 2017), p. 67. issn: 1474-760X. doi: 10.1186/s13059-017-1189-z. url: https://doi.org/10.1186/s13059-017-1189-z.
上一篇: 深度学习应用系列——DeepVariant:鉴定遗传变异
下一篇: 浅谈卷积神经网络中的卷积运算的统计学/生物学意义