组成型数据分析(一) 什么是组成型数据

组成型数据分析(一) 什么是组成型数据

分类: 组成型数据分析

什么是组成型数据

几乎所有的NGS组学数据都是组成型数据(Compositional Data,CODA),你所熟知的相对丰度/TPM等都是组成型数据。组成型数据不同于普通的数据,它有自己独特的特点,如果对它不了解,在数据分析时会踩很多的坑。本文将会从几个例子出发,带领读者一步步认识CODA以及NGS中的CODA,并介绍一位在CODA有重要贡献的学者。关于CODA的正式定义,将留到下一篇文章介绍。

CODA的例子

我们不妨先从几个例子开始看起。

  • 例子1

1599052758(1)

上面这张图是微生物组丰度的柱状图(上把部分是绝对丰度,下半部分是相对丰度):

粉色bug的绝对丰度下载,造成了即使其他bugs绝对丰度不变,从相对丰度上看其丰度却在增加。

这会带来一些生物学结论推断的错误:

1.从相对丰度的数据推断,粉色物种丰度在下降。(唯独这点没问题)

2..从相对丰度的数据推断,Treatment F使得其他物种的丰度上升了。(实际上不变)

3.从相对丰度的数据推断,粉色物种与其他物种呈现负相关。(实际上是没有相关性)

4.从相对丰度的数据推断,这些丰度比较小的物种之间是正相关的。(实际上是看不出来)

点评:

因此,如果仅仅基于相对丰度进行差异分析:我们很难根据结果推断发生差异变化的物种其真实丰度到底有没有变化。因为组成型数据只能反映出其相对占比:有可能是该物种真实丰度升高或下降了,也有可能是其他物种的真实丰度变化导致了该物种的相对丰度发生了变化。也有可能是这两种情况都出现了。所以,结论在于仅靠生信分析是不靠谱的,如果需要得出真实丰度发生了什么变化,qPCR等实验辅助是有必要的。

但是,这种现象对于高维数据,特别是复杂群落的数据,影响不会像这个例子这么明显。

  • 例子2

1599052786(1)

假设健康状态下群落的相对丰度是:

10% 10% 60% 20%

疾病状态下是:

5% 5% 30% 60 %

如果仅仅根据相对丰度,你很可能推断出4个物种都有显著性的变化。

但事实却不一定如此。

因为我们并不知道绝对丰度。

如果两个状态绝对量只有100个bugs,那么根据相对丰度的推断是无问题的,因为绝对丰度总量相同。

但如果绝对丰度不同,比如疾病总量是200,就会导致最终只有物种4与健康状态存在差异。

  • 例子3

1599052836(1)

从相对丰度上,bacteroides与firmicutes丰度是负相关的。

但是如果考察绝对丰度,会发现并不是这样。

而且,可以发现bacteroides是主导地位(绝对丰度远大于另一个菌)。这会导致,假设2者同样增加了2倍的量,再求相对丰度会发现firmicutes的丰度反而下降了!

组成型数据无处不在

事实上,几乎所有NGS的组学数据都是组成型数据,我们不妨以RNA-seq作为一个例子。

1.RNA-seq

- 为什么RPKM/FPKM是错的?

- 为什么要用TPM?

若干篇文献曾经探讨过RPKM/FPKM是有问题的。这两个指标只解决了测序深度和基因长度的问题,但却没有触及到一个更本质的问题:组成型数据意味着仅依靠存粹的测序数据我们是无法推断绝对丰度的;我们只能估计相对丰度,而相对丰度意味着任何样本的总量都是一致的。因此,有研究提出了TPM,TPM就是一个完美符合组成型数据的metric,我们可以从一个简单的推导关系看出来: \(\mathrm{TPM}_{i}=\left(\frac{\mathrm{F(R)PKM}_{i}}{\sum_{j} \mathrm{F(R)PKM}_{j}}\right) \cdot 10^{6}\)

2.微生物组学领域

- 宏基因组/扩增子测序

3.其他领域

- 经济学:不同企业的市场占有率/三大产业占国内生产总值的比重/…

- 化学领域:代谢组学…

- 生活:一天只有24小时,假设只干2件事,工作与睡觉。如果多工作1小时,

​ 那么就少睡1小时。

John Aitchison

1599052900(1)

本节将会介绍一位对组成型数据具有重大贡献的学者:John Aitchison。

John Aitchison是最早系统性研究CODA的学者,有关他,以下是几点基本介绍:

1.John Aitchison是英国统计学家,曾在格拉斯哥大学/香港大学/弗吉尼亚大学统计系任教,逝于2016年。

2.John Aitchison于80年代对组成型数据进行了系统性研究,于1986年出版The Statistical Analysis of Compositional Data;于1988年,他获得了英国皇家统计学会(Royal Statistical Society) 颁发的盖伊奖章(Guy Medal)。

3.早期的统计学家(主要是Pearson)已经注意到了组成数据分析带来的困难。

需要注意的是:

艾奇逊在20世纪80年代分析的数据集比当前NGS的数据集要小得多。

他的例子通常来自地质学,例如:如何使用不同的矿物成分来对岩石样本的可变性进行分类。 而当前的NGS数据,特别是微生物组数据,要表现得更加复杂:

1.高维

2.稀疏

3.样本数量通常远远少于变量数量(under determination)

参考

https://www.youtube.com/watch?v=X60nFYpLWRs


上一篇: 荐课:Bayesian Mixture Models
下一篇: 这是最后一篇了