统计学杂记
概率(Probability)
频率学派概率(Frequentist Probability)和事件发生的频率相关;而贝叶斯学派概率(Bayesian Probability)是对事件发生的确定程度。
试验(Experiment)满足如下条件:可以在相同的条件下重复进行;每次试验的可能结果不只一个,并能够事先明确所有可能的试验结果;进行一次试验之前不能确定是哪一个结果出现。
抛掷一枚硬币而观察正反面出现的情况是最经典的试验。
样本空间(Sample Space)又称结果空间(Outcome Space),是一个试验所有可能结果的集合。样本空间的任何一个子集都被称为一个事件(Event)。随机变量(Random Variable)对应事件的每一个可能结果,分为离散(Discrete)和连续(Continuous)两种。多维随机变量即随机变量构成的一个向量。
条件概率(Conditional Probability)
即事件在另一事件发生的条件下发生的概率,
联合概率(Joint Probability)表示两个事件共同发生的概率,
边缘概率(Marginal Probability)表示某事件子集发生的概率,记为
条件概率可通过下式计算。
贝叶斯定理(Bayes' Theorem)是关于随机事件
分布(Distribution)
随机变量仅仅表示可能取得的状态,还必须给定与之相伴的分布来制定每个状态的可能性。分布即描述随机变量在每一个可能取值的可能性大小。使用
概率质量函数(PMF; Probability Mass Function)
又称概率分布律,对应离散型随机变量
概率密度函数(PDF; Probability Density Function)
对应连续型随机变量
累积分布函数(CDF; Cumulative Distribution Function)
随机变量
对于离散型随机变量
统计(Statistics)
统计即运用样本来研究总体的方法、过程和模式。描述统计学(Descriptive Statistics)描述数据的集中和离散情形;推理统计学(Inferential Statistics)建立数学模型以由样本数据推断总体数量特征。
大数定律(Law of Large Numbers)
大数定律描述随机试验中,样本数量越多,试验结果的算术平均值就有越高的概率接近期望值。
弱大数定律(WLLN; Weak Law of Large Numbers)
弱大数定律又称辛钦大数定律(Khintchine's Law of Large Numbers)是常用的大数定律之一,指出样本均值依概率收敛于期望值,即对任意正数
其中,
为服从同一分布且相互独立的随机变量,且 。
伯努利大数定律(Bernoulli's Law of Large Numbers)即分布为二项分布时的情况,是辛钦大数定律的重要推论,对任意正数
其中,
为 次独立重复试验中事件 发生的次数,且 为其每次发生的概率。
强大数定律(SLLN; Strong Law of Large Numbers)
强大数定律指出样本均值以概率1收敛于期望值,即下式。
其中,
为服从同一分布且相互独立的随机变量,且 。
中心极限定理(CLT; Central Limit Theorem)
中心极限定理认为,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于标准正态分布。
估计理论(Estimation Theory)
估计理论是统计学的分支,通过样本
非参数估计(Nonparametric Estimation)不假设数据服从某种分布,而是通过将样本空间划分为不同的区域并估计每个区域的概率来近似数据的概率密度函数。
对于高维空间中的向量
直方图方法(Histogram Method)是一种非常直观的估计连续变量密度函数的方法。以一维向量为例,将其取值范围分箱处理,每个区间宽度为
区间宽度
核密度估计(Kernel Density Estimation)又称帕尔森窗(Parzen Window)方法,是一种直方图方法的改进。假设空间中小区域
则样本
其中,
即「超立方体」的体积。
除「超立方体」的核函数外,还能使用更平滑的核函数如高斯核函数等。
此外,还可以使用
矩估计(Method of Moments)
又称矩法估计。矩(Moment)又称动差,若
其中,
。
将样本矩代入总体矩,估计值
最大似然估计(MLE; Maximum Likelihood Estimation)
若
其中,
。
最大后验概率估计(MAP Estimation; Maximum A Posteriori Estimation)
假设
EM算法(EM; Expectation-Maximization Algorithm)
概率模型可能依赖于无法观测的隐变量(Hidden Variable),EM算法则适用于含隐变量的概率模型的最大似然估计。
随机过程(Random Process)
随机过程又称随机函数(Random Function),是一组随机变量的集合
马尔可夫性质(Markov Property)是指一个随机过程在给定现在状态及所有过去状态情况下,其「未来状态的条件概率分布仅依赖于当前状态」。这一组状态序列又称马尔可夫过程(Markov Process),即下式。
离散时间的马尔可夫过程又称马尔可夫链(Markov Chain)。当概念扩展为「未来状态的条件概率分布仅依赖于其直接连结的状态」时,可称之为马尔可夫随机场(MRF; Markov Random Field)。状态结点子集中,若两两结点之间均有连结,则称该子集为团(Clique)。
随机游走(Random Walk)是经典的随机过程,每个时刻的状态可以看作在前一时刻的状态上增加随机干扰项。简单随机游走(Simple Random Walk)又称点阵随机游走(Lattice Random Walk)是在规则点阵上的随机游走,返回原点的概率随着点阵维数的增加而减少。
已知过去某时刻
信息论(Information Theory)
见计算机科学常识整理的信息论。
机器学习(Machine Learning)
见机器学习相关整理。
机器学习关乎参数优化,可被视为统计学的分支。机器学习使用概率论来量化不确定性,机器学习算法的设计通常依赖于对数据的概率假设,如朴素贝叶斯假设每个属性取其各个值的可能性是独立的。
因果模型(Causal Model)
鲁宾因果模型(RCM; Rubin Causal Model)
干预(Treatment)即对具有某属性的个体(Unit)执行某种动作
因果推断(Causal Inference)预估对某个变量对象做或不做干预运算(
- 个体处理稳定性假设(SUTVA; Stable Unit Treatment Value Assumption):即个体的潜在结果不会因为分配给其他个体的干预而变化,且所定义的干预不会因为形式和版本的差异导致不同的潜在结果;
- 条件独立性假设(CIA; Conditional Independence Assumption):又称无混杂性假设(Unconfoundedness Assumption)或可忽视性(Ignorability),即对于属性一致的个体而言,是否接受干预和潜在结果相互独立;
- 正数性(Positivity):对属性的所有取值,都有分配干预的概率为正数,即干预的分配有一定的随机性。
结构因果模型(SCM; Structural Causal Model)
结构因果模型被定义为三元组
因果图(Causal Graph)描述结构因果模型中变量间的因果关系,通常是有向图,箭头由「原因」指向「结果」,令
- 链(Chain):
,若没有其他的路径,则 和 不独立, 调节 对 的影响,若以 为条件(选取 的特定值),则 和 是独立的; - 叉(Fork):
, 和 存在非因果的虚假相关性,若以 为条件(选取 的特定值),则 和 是独立的,即消除虚假相关性,当 也是 的「原因」或「结果」时,即 或 时, 又被称为混杂因子(Confounder); - 对撞(Collision):
,若没有其他的路径,则 和 是独立的,若以 为条件(选取 的特定值),通常揭示 与 的非因果负相关。
外生变量在因果图中没有父结点。
地统计(Geostatistics)
地统计用于分析和预测与空间或时空现象相关的值,是统计学中关注时空数据的分支。地统计学认为研究区域中的所有样本值都是随机过程的结果,即所有样本值都不是相互独立的,是遵循一定的内在规律的。
自相关(Autocorrelation)是地统计的重要概念,地理学第一定律(The First Law of Geography)将之描述为「任何事物都与其他事物相联系,但邻近的事物比较远事物联系更为紧密」。区域化变量(Regionalized Variable)是地统计的研究基础,区域化变量根据区域内位置的不同而有差异,而在区域内确定的位置取值时表现为一般的随机变量。
半变异函数(Semivariogram)又译半方差函数,成对地考虑区域化变量,是自相关的量化分析。假设有
其中:区域范围
; 为任意空间距离度量。
利用经验半方差散点图可以建立半变异函数理论模型来拟合实际变异曲线。
半变异函数的横轴为距离,纵轴为半方差。半变异函数在特定处呈现水平,首次呈现水平状态的距离称为变程(Range)