统计学杂记

概率(Probability)

频率学派概率(Frequentist Probability)和事件发生的频率相关;而贝叶斯学派概率(Bayesian Probability)是对事件发生的确定程度。

试验(Experiment)满足如下条件:可以在相同的条件下重复进行;每次试验的可能结果不只一个,并能够事先明确所有可能的试验结果;进行一次试验之前不能确定是哪一个结果出现。

抛掷一枚硬币而观察正反面出现的情况是最经典的试验。

样本空间(Sample Space)又称结果空间(Outcome Space),是一个试验所有可能结果的集合。样本空间的任何一个子集都被称为一个事件(Event)。随机变量(Random Variable)对应事件的每一个可能结果,分为离散(Discrete)和连续(Continuous)两种。多维随机变量即随机变量构成的一个向量。

条件概率(Conditional Probability)

即事件在另一事件发生的条件下发生的概率,的概率记为

联合概率(Joint Probability)表示两个事件共同发生的概率,共同发生的概率记为

边缘概率(Marginal Probability)表示某事件子集发生的概率,记为,该式又被称为概率的加和规则(Sum Rule)。

条件概率可通过下式计算。 联合概率向条件概率的分解遵循如下的链式法则,下式又被称为概率的乘积规则(Product Rule)。 如果两个事件的发生是不相关的,则两个事件分别对应的两个随机变量是独立(Independent)的,否则称为依赖(Dependent)的。随机变量的独立性可从如下角度考虑:从条件概率的角度考虑,即;从联合概率的角度考虑即

贝叶斯定理(Bayes' Theorem)是关于随机事件的条件概率的一则定理,可由乘积规则推出,内容如下。

被称为先验概率(Prior Probability),因为它是在观察事件前就能够得到的概率;而贝叶斯定理的结果被称为后验概率(Posterior Probability),因为它是观察事件后能够得到的概率。

分布(Distribution)

随机变量仅仅表示可能取得的状态,还必须给定与之相伴的分布来制定每个状态的可能性。分布即描述随机变量在每一个可能取值的可能性大小。使用表示随机变量所遵循的分布。

常用概率分布

伯努利分布(Bernoulli Distribution)得名于瑞士数学家雅各布·伯努利,其概率质量函数如下式。 二项分布(Binomial Distribution)是伯努利分布的延展,其概率质量函数如下式。

多项分布(Multinomial Distribution)是二项分布的推广,其概率质量函数如下式。

泊松分布(Poisson Distribution)是二项分布的极限形式,其概率质量函数如下式。 正态分布(Normal Distribution)又称高斯分布(Gaussian Distribution),是最常用的概率分布,其概率密度函数如下式。 有时使用表示分布的精度。正态分布中,的期望,二阶矩,方差

标准正态分布(Standard Normal Distribution)是的正态分布,即下式。 正态分布可以推广至空间,即多维正态分布(Multivariate Normal Distribution),如下式。其中,参数为正定对称矩阵,是分布的协方差矩阵。

均匀分布(Uniform Distribution)的概率密度函数如下式。 指数分布(Exponential Distribution)在处取得最高概率,其概率密度函数如下式。 双指数分布(Double Exponential Distribution)又称拉普拉斯分布(Laplace Distribution),得名于法国数学家皮埃尔-西蒙·拉普拉斯,可视作两平移指数分布的拼接,允许在任意一点处设置概率质量的峰值,其概率密度函数如下式。

随机变量的数字特征

期望(Expectation)又称均值(Average)。对于离散型随机变量,期望的定义如下。其中,为离散型随机变量概率质量函数

对于连续型随机变量,期望的定义如下。其中,为连续型随机变量概率密度函数

相互独立,则有如下期望的性质。

方差(Variance)用于度量随机变量与其均值的偏离程度,定义如下。 相互独立,则有如下方差的性质。 标准差(Standard Deviation)即方差的平方根。

协方差(Covariance)用于度量两个随机变量线性相关的强度,定义如下。 随机变量组协方差矩阵(Covariance Matrix)是一个满足下式的方阵 协方差矩阵主对角线的元素是方差,即

相关系数(Correlation Coefficient)研究变量之间的线性相关程度,定义如下。 相关系数的取值范围是,可以视作无量纲的协方差。

概率论的常用不等式

柯西-施瓦兹不等式的概率论版本如下。

琴生不等式的概率论版本为,对任意凸函数有下式成立。

由琴生不等式可知

霍夫丁不等式(Hoeffding's Inequality)指出,对个随机变量,令为它们的平均值,有下式成立。

特别地,若都有,能够得到如下更简洁的不等式。

切比雪夫不等式(Chebyshev's Inequality)指出,对任意随机变量有下式成立。

概率质量函数(PMF; Probability Mass Function)

又称概率分布律,对应离散型随机变量的取值规律,记为,通常以表格的形式呈现。PMF必须满足如下的条件:的定义域必须是所有可能状态的集合;各取值对应的概率应当合理,即,且

概率密度函数(PDF; Probability Density Function)

对应连续型随机变量的取值规律,记为。PDF必须满足如下的条件:的定义域必须是所有可能状态的集合; (注意此处并不要求),且

累积分布函数(CDF; Cumulative Distribution Function)

随机变量落于的概率,记为

对于离散型随机变量,有下式。 对于连续型随机变量,有下式。

统计(Statistics)

统计即运用样本来研究总体的方法、过程和模式。描述统计学(Descriptive Statistics)描述数据的集中和离散情形;推理统计学(Inferential Statistics)建立数学模型以由样本数据推断总体数量特征。

大数定律(Law of Large Numbers)

大数定律描述随机试验中,样本数量越多,试验结果的算术平均值就有越高的概率接近期望值。

弱大数定律(WLLN; Weak Law of Large Numbers)

亚历山大·辛钦(Aleksandr Khinchin)

前苏联数学家,现代概率论的奠基者之一。

弱大数定律又称辛钦大数定律(Khintchine's Law of Large Numbers)是常用的大数定律之一,指出样本均值依概率收敛于期望值,即对任意正数有下式。

其中,为服从同一分布且相互独立的随机变量,且

雅各布·伯努利(Jakob Bernoulli)

瑞士数学家,约翰·伯努利的哥哥。

伯努利大数定律(Bernoulli's Law of Large Numbers)即分布为二项分布时的情况,是辛钦大数定律的重要推论,对任意正数有下式。

其中,次独立重复试验中事件发生的次数,且为其每次发生的概率。

强大数定律(SLLN; Strong Law of Large Numbers)

强大数定律指出样本均值以概率1收敛于期望值,即下式。

其中,为服从同一分布且相互独立的随机变量,且

中心极限定理(CLT; Central Limit Theorem)

中心极限定理认为,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于标准正态分布。

估计理论(Estimation Theory)

估计理论是统计学的分支,通过样本来估计概率分布参数的数值,估计的结果称为估计值(Estimate),推断统计模型中未知参数值的函数称为估计器(Estimator)。估计结果为具体数值的估计称为点估计(Point Estimation),或称定值估计;估计结果为在可信度下的最可能的区间的估计称为区间估计(Interval Estimation)。

非参数估计(Nonparametric Estimation)不假设数据服从某种分布,而是通过将样本空间划分为不同的区域并估计每个区域的概率来近似数据的概率密度函数。

对于高维空间中的向量,假定其服从未知分布。给定个样本,设落入空间中小区域的样本数为、概率为,由大数定理可知。记的体积为,假设区域足够小,其内部概率密度相同,则有。综上可得下式。

直方图方法(Histogram Method)是一种非常直观的估计连续变量密度函数的方法。以一维向量为例,将其取值范围分箱处理,每个区间宽度为,样本落入每个区间的数量为,则每个区间的密度函数如下式。

区间宽度通常设为相同的值。如果太小,那么落入每个区间的样本数量会比较少,其估计的区间密度也具有很大的随机性;如果太大,其估计的密度函数变得十分平滑,很难反映出真实的数据分布。而且,直方图方法难以扩展到高维变量,因为对每个维度划分区间会导致指数增长的开销。

核密度估计(Kernel Density Estimation)又称帕尔森窗(Parzen Window)方法,是一种直方图方法的改进。假设空间中小区域是以为中心的「超立方体」,其边长为,则定义下式的「超立方体」核函数以判断样本是否落入「超立方体」中。

则样本的密度估计如下式。

其中,即「超立方体」的体积。

除「超立方体」的核函数外,还能使用更平滑的核函数如高斯核函数等。

此外,还可以使用近邻方法完成非参数估计,即改变小区域的尺度以使得落入每个区域的样本数量为

矩估计(Method of Moments)

又称矩法估计。(Moment)又称动差,若概率密度函数,总体阶总体矩定义如下。 取出大小为的样本,则阶样本矩的定义如下。

其中,

将样本矩代入总体矩,估计值由前阶矩的方程确定。

最大似然估计(MLE; Maximum Likelihood Estimation)

概率密度函数,样本的似然函数如下。 则参数估计值的计算如下式。 通常可微,可转换为微积分中的最值问题,为计算方便使用「对数似然」将乘积转化为求和,参数估计值可通过如下方程确定。 最大似然估计也适用于多个参数的情况,即上式的方程可改写为如下数学形式。

其中,

正态分布参数的最大似然估计

其似然函数即下式。

使用「对数似然」将乘积转化为求和,得到下式。

的偏导数,得到下式。

令上式为零,得到的参数估计即下式。

的偏导数,得到下式。

令上式为零,得到的参数估计即下式。

多项分布参数的最大似然估计

对于确定的次试验结果,多项分布的似然函数即下式。

使用「对数似然」将乘积转化为求和,得到下式。

上式的约束如下。

因此引入拉格朗日乘子,得到下式。

的偏导数,得到下式。

令上式为零,得到下式。

结合上述的约束,得到下式。

结合得到,因此的参数估计即下式。

最大后验概率估计(MAP Estimation; Maximum A Posteriori Estimation)

假设存在一个先验分布,最大后验概率估计定义如下。

EM算法(EM; Expectation-Maximization Algorithm)

概率模型可能依赖于无法观测的隐变量(Hidden Variable),EM算法则适用于含隐变量的概率模型的最大似然估计。

随机过程(Random Process)

随机过程又称随机函数(Random Function),是一组随机变量的集合,其中参数空间可以定义在时间域或空间域等,一般为时间域。当希望强调参数空间的几何结构时,可称之为随机场(Random Field)。

马尔可夫性质(Markov Property)是指一个随机过程在给定现在状态及所有过去状态情况下,其「未来状态的条件概率分布仅依赖于当前状态」。这一组状态序列又称马尔可夫过程(Markov Process),即下式。

离散时间的马尔可夫过程又称马尔可夫链(Markov Chain)。当概念扩展为「未来状态的条件概率分布仅依赖于其直接连结的状态」时,可称之为马尔可夫随机场(MRF; Markov Random Field)。状态结点子集中,若两两结点之间均有连结,则称该子集为团(Clique)。

随机游走(Random Walk)是经典的随机过程,每个时刻的状态可以看作在前一时刻的状态上增加随机干扰项。简单随机游走(Simple Random Walk)又称点阵随机游走(Lattice Random Walk)是在规则点阵上的随机游走,返回原点的概率随着点阵维数的增加而减少。

已知过去某时刻以及之前所有时刻的观测值,若某时刻的观测值的条件期望等于过去某时刻的观测值,则称该随机过程是鞅(Martingale)。简单随机游走是鞅。

信息论(Information Theory)

见计算机科学常识整理的信息论

机器学习(Machine Learning)

机器学习相关整理

机器学习关乎参数优化,可被视为统计学的分支。机器学习使用概率论来量化不确定性,机器学习算法的设计通常依赖于对数据的概率假设,如朴素贝叶斯假设每个属性取其各个值的可能性是独立的。

因果模型(Causal Model)

鲁宾因果模型(RCM; Rubin Causal Model)

干预(Treatment)即对具有某属性的个体(Unit)执行某种动作,记为。是否干预可能会产生不同的潜在结果(Potential Outcome),潜在结果随干预的变化称为因果效应(Causal Effect)或干预效应(Treatment Effect)。记观测结果(Observed Outcome)为,当用户受到干预时,观测结果,反之

因果推断(Causal Inference)预估对某个变量对象做或不做干预运算(-Calculus)产生的后果,平均因果效应(ACE; Average Causal Effect)或称平均干预效应(ATE; Average Treatment Effect)可用于衡量这种后果,其数学形式如下。 类似地有干预组的平均因果效应(ATT; Average Treatment Effect on the Treated),定义如下。 因果效应的可识别性(Identifiability)即回答「能否在给定数据下准确地估计因果效应」的问题。可识别性依赖于如下的因果假设(Causal Assumption)。

  • 个体处理稳定性假设(SUTVA; Stable Unit Treatment Value Assumption):即个体的潜在结果不会因为分配给其他个体的干预而变化,且所定义的干预不会因为形式和版本的差异导致不同的潜在结果;
  • 条件独立性假设(CIA; Conditional Independence Assumption):又称无混杂性假设(Unconfoundedness Assumption)或可忽视性(Ignorability),即对于属性一致的个体而言,是否接受干预和潜在结果相互独立;
  • 正数性(Positivity):对属性的所有取值,都有分配干预的概率为正数,即干预的分配有一定的随机性。

结构因果模型(SCM; Structural Causal Model)

结构因果模型被定义为三元组,其中:是外生变量(Exogenous Variable)的集合,外生变量的值由模型外部的因素决定;是内生变量(Endogenous Variable)的集合,内生变量的值由模型内部的因素决定,是映射函数的集合,可将每个内生变量的值表示为中其他变量的函数,即,其中

因果图(Causal Graph)描述结构因果模型中变量间的因果关系,通常是有向图,箭头由「原因」指向「结果」,令为不同结点,则因果图包括如下三种基本结构。

  • 链(Chain):,若没有其他的路径,则不独立,调节的影响,若以为条件(选取的特定值),则是独立的;
  • 叉(Fork):存在非因果的虚假相关性,若以为条件(选取的特定值),则是独立的,即消除虚假相关性,当也是的「原因」或「结果」时,即时,又被称为混杂因子(Confounder);
  • 对撞(Collision):,若没有其他的路径,则是独立的,若以为条件(选取的特定值),通常揭示的非因果负相关。

外生变量在因果图中没有父结点。

地统计(Geostatistics)

地统计用于分析和预测与空间或时空现象相关的值,是统计学中关注时空数据的分支。地统计学认为研究区域中的所有样本值都是随机过程的结果,即所有样本值都不是相互独立的,是遵循一定的内在规律的。

自相关(Autocorrelation)是地统计的重要概念,地理学第一定律(The First Law of Geography)将之描述为「任何事物都与其他事物相联系,但邻近的事物比较远事物联系更为紧密」。区域化变量(Regionalized Variable)是地统计的研究基础,区域化变量根据区域内位置的不同而有差异,而在区域内确定的位置取值时表现为一般的随机变量。

半变异函数(Semivariogram)又译半方差函数,成对地考虑区域化变量,是自相关的量化分析。假设有个一维区域化变量及其空间位置,有组区域化变量对。经验半方差(Semivariance)的数学形式如下。

其中:区域范围为任意空间距离度量。

利用经验半方差散点图可以建立半变异函数理论模型来拟合实际变异曲线。

半变异函数的横轴为距离,纵轴为半方差。半变异函数在特定处呈现水平,首次呈现水平状态的距离称为变程(Range),在变程处所获得的值称为基台(Sill),半变异函数在纵轴上的截距称为块金(Nugget),即随机过程的固有方差。半变异函数的定义如下。 半变异函数和协方差之间存在如下关系。 偏基台(Partial Sill)是基台与块金的差值。自相关性的强弱可由偏基台与基台的比值反应,该值越大则自相关性越强。当半变异函数值超过基台值时,即函数值不随采样点间隔距离而改变时,不存在自相关性。