多元高斯分布:概念、参数估计与生信中的应用
多元正态(高斯)(Multivariate normal,MVN)分布是多元统计、机器学习领域一个重要的基础概念,生物信息中许多应用的实现都基于该分布。但在教材中,多以结论直接给出其定义式,其定义以及一些性质的推导则鲜有提及。理解这些定义以及性质的由来对理解相关应用非常重要。
趁着疫情时期,在家里整理了一下多元高斯分布,下面是一些我的手记以及一些我认为有用的资料。
1.概念与推导
概念的定义上,参考维基百科的定义。下面给出一点推导的建议:
1.推导过程建议由浅入深,先从多个独立同分布的标准高斯分布开始:由联合分布的定义可知,独立分布的随机变量的联合分布等于各个随机变量pdf的乘积。因此,从多个i.i.d的一元标准高斯分布的乘积开始推导是最简单的入门方式。
推导这个过程可以理解多元高斯分布的定义式是如何从标量的定义式转化为矩阵的定义式。具体来讲:为什么分母中会出现行列式,为什么指数项中会出现协方差矩阵的逆。
这个过程可能涉及的概念:
a.二次型,事实上,多元高斯分布的指数项就是一个经典的二次型。
推荐链接:
https://www.matongxue.com/madocs/271.html
https://www.youtube.com/watch?v=0yEiCV-xEWQ
二次型与多元随机变量:
https://www.youtube.com/watch?v=Z0jBgMDkfUg
2.在理解了标量转化为矩阵的过程后,可以尝试从标量的形式推导2个相关的一元高斯分布如何推导出其联合分布。这里给出思路:从令Z=aX+bY,W=cX+dY,其中X,Y为一元的标准正态分布,X,Y独立。即,从f(X,Y) 推导出f(Z,W)。
这个过程涉及到的概念是多维随机变量的transformation以及雅可比矩阵,推荐直接看维基百科的定义,比较清楚。
3.接下来,理解了标量到矩阵的转化,就可以开始从矩阵的角度推导多元高斯分布了。
基本思想在于:通过rotation,transmission,scaling使得原本表现出相关的多元高斯分布转化为不相关的标准多元高斯分布。再将这个过程逆推回去即可(或者运用tranformation)。
这个过程中,需要涉及一些矩阵中的概念:
a.基底变换/向量内积的几何意义
b.rotation/transmission/scaling matrix,并理解其几何意义
c.行列式的性质
d.transformation
推荐链接:
https://zhuanlan.zhihu.com/p/25955676
多元高斯分布推导1:https://zhuanlan.zhihu.com/p/36522776
多元高斯分布推导2:https://zhuanlan.zhihu.com/p/58987388
2.MLE:参数估计
理解了多元高斯分布的定义,接下来需要理解的就是其MLE的过程。因为实践中,往往无法预先知道总体的分布,需要用样本进行参数估计。这个过程中,需要涉及一些概念:
a.trace的性质
b.矩阵求导
推荐链接:
MNV的MLE参数估计过程:
https://stats.stackexchange.com/questions/351549/maximum-likelihood-estimators-multivariate-gaussian
https://people.eecs.berkeley.edu/~jordan/courses/260-spring10/other-readings/chapter13.pdf
3.生信中的应用
在理解了多元高斯分布的定义以及参数估计后,可以尝试寻找一些应用以便加深理解:
例如,在微生物组学领域,推断物种之间的相关性是一个经典的研究方向(无论是微生物还是基因、蛋白等,涉及到网络构建的都与相关性推断有着比较密切的联系),不同的算法策略不同。这里介绍SPEC-EASI。
在概率图模型中,高斯图模型是一个计算随机变量的相关性以推断图结构的方法,SPEC-EASI就是采用这个策略。当然,在SPEC-EASI中还涉及到一些组成型数据的问题,例如clr-transform等,但那又是另一个话题了。关于组成型数据分析,推荐John Aitchison的The Statistical Analysis of Compositional Data.
SPEC-EASI的原论文:
Sparse and Compositionally Robust Inference of Microbial Ecological Networks:
https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1004226
为了了解SPEC-EASI,首先需要掌握什么是Gaussian graphical models:其核心在于估计inverse covariance matrix,并借助conditional independence的性质推断相关性。
推荐链接:
GGM的介绍:https://skggm.github.io/skggm/tour
在该基础上,在对逆协方差矩阵的损失函数中,加入对其各个元素(除对角线)l1正则以寻求稀疏解就变成了 graphical lasso,这正是SPEC-EASI采用的策略。
上一篇: Introduction to Phylogenetic Tree
下一篇: 闲扯概率论中的计数问题