统计学杂记

概率(Probability)

频率学派概率(Frequentist Probability)和事件发生的频率相关贝叶斯学派概率(Bayesian Probability)是对事件发生的确定程度

试验(Experiment)满足如下条件可以在相同的条件下重复进行每次试验的可能结果不只一个并能够事先明确所有可能的试验结果进行一次试验之前不能确定是哪一个结果出现

抛掷一枚硬币而观察正反面出现的情况是最经典的试验

样本空间(Sample Space)又称结果空间(Outcome Space)是一个试验所有可能结果的集合样本空间的任何一个子集都被称为一个事件(Event)随机变量(Random Variable)对应事件的每一个可能结果分为离散(Discrete)和连续(Continuous)两种多维随机变量即随机变量构成的一个向量

条件概率(Conditional Probability)

即事件在另一事件发生的条件下发生的概率的概率记为

联合概率(Joint Probability)表示两个事件共同发生的概率共同发生的概率记为

边缘概率(Marginal Probability)表示某事件子集发生的概率记为该式又被称为概率的加和规则(Sum Rule)

条件概率可通过下式计算 联合概率向条件概率的分解遵循如下的链式法则下式又被称为概率的乘积规则(Product Rule) 如果两个事件的发生是不相关的则两个事件分别对应的两个随机变量是独立(Independent)否则称为依赖(Dependent)随机变量的独立性可从如下角度考虑从条件概率的角度考虑从联合概率的角度考虑即

贝叶斯定理(Bayes' Theorem)是关于随机事件的条件概率的一则定理可由乘积规则推出内容如下

被称为先验概率(Prior Probability)因为它是在观察事件前就能够得到的概率而贝叶斯定理的结果被称为后验概率(Posterior Probability)因为它是观察事件后能够得到的概率

分布(Distribution)

随机变量仅仅表示可能取得的状态还必须给定与之相伴的分布来制定每个状态的可能性分布即描述随机变量在每一个可能取值的可能性大小使用表示随机变量所遵循的分布

常用概率分布

伯努利分布(Bernoulli Distribution)得名于瑞士数学家雅各布·伯努利概率质量函数如下式 二项分布(Binomial Distribution)是伯努利分布的延展其概率质量函数如下式

多项分布(Multinomial Distribution)是二项分布的推广其概率质量函数如下式

泊松分布(Poisson Distribution)是二项分布的极限形式其概率质量函数如下式 正态分布(Normal Distribution)又称高斯分布(Gaussian Distribution)是最常用的概率分布概率密度函数如下式 有时使用表示分布的精度正态分布中的期望二阶矩方差

标准正态分布(Standard Normal Distribution)的正态分布即下式 正态分布可以推广至空间多维正态分布(Multivariate Normal Distribution)如下式其中参数为正定对称矩阵是分布的协方差矩阵

均匀分布(Uniform Distribution)的概率密度函数如下式 指数分布(Exponential Distribution)处取得最高概率其概率密度函数如下式 双指数分布(Double Exponential Distribution)又称拉普拉斯分布(Laplace Distribution)得名于法国数学家皮埃尔-西蒙·拉普拉斯可视作两平移指数分布的拼接允许在任意一点处设置概率质量的峰值其概率密度函数如下式

随机变量的数字特征

期望(Expectation)又称均值(Average)对于离散型随机变量期望的定义如下其中为离散型随机变量概率质量函数

对于连续型随机变量期望的定义如下其中为连续型随机变量概率密度函数

相互独立则有如下期望的性质 方差(Variance)用于度量随机变量与其均值的偏离程度定义如下 相互独立则有如下方差的性质 标准差(Standard Deviation)即方差的平方根

协方差(Covariance)用于度量两个随机变量线性相关的强度定义如下 随机变量组协方差矩阵(Covariance Matrix)是一个满足下式的方阵 协方差矩阵主对角线的元素是方差

相关系数(Correlation Coefficient)研究变量之间的线性相关程度定义如下 相关系数的取值范围是可以视作无量纲的协方差

概率质量函数(PMF; Probability Mass Function)

又称概率分布律对应离散型随机变量的取值规律记为通常以表格的形式呈现PMF必须满足如下的条件的定义域必须是所有可能状态的集合各取值对应的概率应当合理

概率密度函数(PDF; Probability Density Function)

对应连续型随机变量的取值规律记为PDF必须满足如下的条件的定义域必须是所有可能状态的集合 (注意此处并不要求)

累积分布函数(CDF; Cumulative Distribution Function)

随机变量落于的概率记为

对于离散型随机变量有下式 对于连续型随机变量有下式

统计(Statistics)

统计即运用样本来研究总体的方法过程和模式描述统计学(Descriptive Statistics)描述数据的集中和离散情形推理统计学(Inferential Statistics)建立数学模型以由样本数据推断总体数量特征

大数定律(Law of Large Numbers)

大数定律描述随机试验中样本数量越多试验结果的算术平均值就有越高的概率接近期望值

弱大数定律(WLLN; Weak Law of Large Numbers)

亚历山大·辛钦(Aleksandr Khinchin)

前苏联数学家现代概率论的奠基者之一

弱大数定律又称辛钦大数定律(Khintchine's Law of Large Numbers)是常用的大数定律之一指出样本均值依概率收敛于期望值即对任意正数有下式

其中为服从同一分布且相互独立的随机变量

雅各布·伯努利(Jakob Bernoulli)

瑞士数学家约翰·伯努利的哥哥

伯努利大数定律(Bernoulli's Law of Large Numbers)即分布为二项分布时的情况是辛钦大数定律的重要推论对任意正数有下式

其中次独立重复试验中事件发生的次数为其每次发生的概率

强大数定律(SLLN; Strong Law of Large Numbers)

强大数定律指出样本均值以概率1收敛于期望值即下式

其中为服从同一分布且相互独立的随机变量

中心极限定理(CLT; Central Limit Theorem)

中心极限定理认为在适当的条件下大量相互独立随机变量的均值经适当标准化后依分布收敛于标准正态分布

估计理论(Estimation Theory)

估计理论是统计学的分支通过样本来估计概率分布参数的数值估计的结果称为估计值(Estimate)推断统计模型中未知参数值的函数称为估计器(Estimator)估计结果为具体数值的估计称为点估计(Point Estimation)或称定值估计估计结果为在可信度下的最可能的区间的估计称为区间估计(Interval Estimation)

非参数估计(Nonparametric Estimation)不假设数据服从某种分布而是通过将样本空间划分为不同的区域并估计每个区域的概率来近似数据的概率密度函数

对于高维空间中的向量假定其服从未知分布给定个样本设落入空间中小区域的样本数为概率为由大数定理可知的体积为假设区域足够小其内部概率密度相同则有综上可得下式

直方图方法(Histogram Method)是一种非常直观的估计连续变量密度函数的方法以一维向量为例将其取值范围分箱处理每个区间宽度为样本落入每个区间的数量为则每个区间的密度函数如下式

区间宽度通常设为相同的值如果太小那么落入每个区间的样本数量会比较少其估计的区间密度也具有很大的随机性如果太大其估计的密度函数变得十分平滑很难反映出真实的数据分布而且直方图方法难以扩展到高维变量因为对每个维度划分区间会导致指数增长的开销

核密度估计(Kernel Density Estimation)又称帕尔森窗(Parzen Window)方法是一种直方图方法的改进假设空间中小区域是以为中心的超立方体其边长为则定义下式的超立方体核函数以判断样本是否落入超立方体

则样本的密度估计如下式

其中超立方体的体积

超立方体的核函数外还能使用更平滑的核函数如高斯核函数等

此外还可以使用近邻方法完成非参数估计即改变小区域的尺度以使得落入每个区域的样本数量为

矩估计(Method of Moments)

又称矩法估计(Moment)又称动差概率密度函数总体阶总体矩定义如下 取出大小为的样本阶样本矩的定义如下

其中

将样本矩代入总体矩估计值由前阶矩的方程确定

最大似然估计(MLE; Maximum Likelihood Estimation)

概率密度函数样本的似然函数如下 则参数估计值的计算如下式 通常可微可转换为微积分中的最值问题为计算方便使用对数似然将乘积转化为求和参数估计值可通过如下方程确定 最大似然估计也适用于多个参数的情况即上式的方程可改写为如下数学形式

其中

正态分布参数的最大似然估计

其似然函数即下式

使用对数似然将乘积转化为求和得到下式

的偏导数得到下式

令上式为零得到的参数估计即下式

的偏导数得到下式

令上式为零得到的参数估计即下式

多项分布参数的最大似然估计

对于确定的次试验结果多项分布的似然函数即下式

使用对数似然将乘积转化为求和得到下式

上式的约束如下

因此引入拉格朗日乘子得到下式

的偏导数得到下式

令上式为零得到下式

结合上述的约束得到下式

结合得到因此的参数估计即下式

最大后验概率估计(MAP Estimation; Maximum A Posteriori Estimation)

假设存在一个先验分布最大后验概率估计定义如下

EM算法(EM; Expectation-Maximization Algorithm)

概率模型可能依赖于无法观测的隐变量(Hidden Variable)EM算法则适用于含隐变量的概率模型的最大似然估计

随机过程(Random Process)

随机过程又称随机函数(Random Function)是一组随机变量的集合其中参数空间可以定义在时间域或空间域等一般为时间域当希望强调参数空间的几何结构时可称之为随机场(Random Field)

马尔可夫性质(Markov Property)是指一个随机过程在给定现在状态及所有过去状态情况下未来状态的条件概率分布仅依赖于当前状态这一组状态序列又称马尔可夫过程(Markov Process)即下式

离散时间的马尔可夫过程又称马尔可夫链(Markov Chain)当概念扩展为未来状态的条件概率分布仅依赖于其直接连结的状态可称之为马尔可夫随机场(MRF; Markov Random Field)状态结点子集中若两两结点之间均有连结则称该子集为团(Clique)

随机游走(Random Walk)是经典的随机过程每个时刻的状态可以看作在前一时刻的状态上增加随机干扰项简单随机游走(Simple Random Walk)又称点阵随机游走(Lattice Random Walk)是在规则点阵上的随机游走返回原点的概率随着点阵维数的增加而减少

已知过去某时刻以及之前所有时刻的观测值若某时刻的观测值的条件期望等于过去某时刻的观测值则称该随机过程是鞅(Martingale)简单随机游走是鞅

信息论(Information Theory)

见计算机科学常识整理的信息论

机器学习(Machine Learning)

机器学习相关整理

机器学习关乎参数优化可被视为统计学的分支机器学习使用概率论来量化不确定性机器学习算法的设计通常依赖于对数据的概率假设朴素贝叶斯假设每个属性取其各个值的可能性是独立的

因果模型(Causal Model)

鲁宾因果模型(RCM; Rubin Causal Model)

干预(Treatment)即对具有某属性的个体(Unit)执行某种动作记为是否干预可能会产生不同的潜在结果(Potential Outcome)潜在结果随干预的变化称为因果效应(Causal Effect)或干预效应(Treatment Effect)记观测结果(Observed Outcome)当用户受到干预时观测结果反之

因果推断(Causal Inference)预估对某个变量对象做或不做干预运算(-Calculus)产生的后果平均因果效应(ACE; Average Causal Effect)或称平均干预效应(ATE; Average Treatment Effect)可用于衡量这种后果其数学形式如下 类似地有干预组的平均因果效应(ATT; Average Treatment Effect on the Treated)定义如下 因果效应的可识别性(Identifiability)即回答能否在给定数据下准确地估计因果效应的问题可识别性依赖于如下的因果假设(Causal Assumption)

  • 个体处理稳定性假设(SUTVA; Stable Unit Treatment Value Assumption)即个体的潜在结果不会因为分配给其他个体的干预而变化且所定义的干预不会因为形式和版本的差异导致不同的潜在结果
  • 条件独立性假设(CIA; Conditional Independence Assumption)又称无混杂性假设(Unconfoundedness Assumption)或可忽视性(Ignorability)即对于属性一致的个体而言是否接受干预和潜在结果相互独立
  • 正数性(Positivity)对属性的所有取值都有分配干预的概率为正数即干预的分配有一定的随机性

结构因果模型(SCM; Structural Causal Model)

结构因果模型被定义为三元组其中是外生变量(Exogenous Variable)的集合外生变量的值由模型外部的因素决定是内生变量(Endogenous Variable)的集合内生变量的值由模型内部的因素决定是映射函数的集合可将每个内生变量的值表示为中其他变量的函数其中

因果图(Causal Graph)描述结构因果模型中变量间的因果关系通常是有向图箭头由原因指向结果为不同结点则因果图包括如下三种基本结构

  • (Chain)若没有其他的路径不独立调节的影响若以为条件(选取的特定值)是独立的
  • (Fork)存在非因果的虚假相关性若以为条件(选取的特定值)是独立的即消除虚假相关性也是原因结果又被称为混杂因子(Confounder)
  • 对撞(Collision)若没有其他的路径是独立的若以为条件(选取的特定值)通常揭示的非因果负相关

外生变量在因果图中没有父结点

地统计(Geostatistics)

地统计用于分析和预测与空间或时空现象相关的值是统计学中关注时空数据的分支地统计学认为研究区域中的所有样本值都是随机过程的结果即所有样本值都不是相互独立的是遵循一定的内在规律的

自相关(Autocorrelation)是地统计的重要概念地理学第一定律(The First Law of Geography)将之描述为任何事物都与其他事物相联系但邻近的事物比较远事物联系更为紧密区域化变量(Regionalized Variable)是地统计的研究基础区域化变量根据区域内位置的不同而有差异而在区域内确定的位置取值时表现为一般的随机变量

半变异函数(Semivariogram)又译半方差函数成对地考虑区域化变量是自相关的量化分析假设有个一维区域化变量及其空间位置组区域化变量对经验半方差(Semivariance)的数学形式如下

其中区域范围为任意空间距离度量

利用经验半方差散点图可以建立半变异函数理论模型来拟合实际变异曲线

半变异函数的横轴为距离纵轴为半方差半变异函数在特定处呈现水平首次呈现水平状态的距离称为变程(Range)在变程处所获得的值称为基台(Sill)半变异函数在纵轴上的截距称为块金(Nugget)即随机过程的固有方差半变异函数的定义如下 半变异函数和协方差之间存在如下关系 偏基台(Partial Sill)是基台与块金的差值自相关性的强弱可由偏基台与基台的比值反应该值越大则自相关性越强当半变异函数值超过基台值时即函数值不随采样点间隔距离而改变时不存在自相关性