统计和机器学习 - 2022秋季研究生课程预备知识
概率论基础：
- 随机现象、随机事件、随机变量、概率、分布函数、期望、方差等概念
- 常见的一元和多元随机变量的分布和性质
点估计和区间估计：
- 估计的三种思想（替换、似然、拟合）
- 最大似然估计
- 利用枢轴量法构造区间估计
- 区间估计与假设检验的对应关系
假设检验：
- 假设检验的基本步骤和方法
- 如何利用检验统计量、拒绝域和 p 值进行检验
- 如何对单个正态分布和两个正态分布的参数进行假设检验

Tutorial Zero: Preliminaries

Part One：Statistics and Sampling Distribution

数据： ${x_i: i=1,2,\cdots,n}$
常见假定：独立同分布，也就是说，
$$
x_i \overset{i.i.d}{\sim} X
$$
其中，$X$是一个随机变量。

随机变量的定义及常见分布

随机变量的定义

随机现象：出现的结果不唯一，事前无法得知哪种结果出现的现象。

投掷骰子的结果；
抽签分组的结果；
从家到学校所花费的时间；
明天的上证指数；

样本空间：随机现象的所有结果。常用$\Omega$来表示。
随机事件：样本空间中的一个我们所关心的子集，常用大写的英文字母来表示，如A,B,C等。特别的随机事件类型有：
必然事件：一定会发生的事件，$\Omega$；
不可能事件：一定不会发生的事件，$\emptyset$;
概率：一个随机事件发生的可能性；
概率的公理化定义：在一个样本空间$\Omega$及其事件域$\mathcal{F}$中，对于任意随机事件$A \in \mathcal{F}$，其概率$P(A)$是一个实数，且满足：

非负性：$P(A) \geq 0$.
正则性：对于必然事件$\Omega$， $P(\Omega) = 1$；
可列可加性：若$A_1,A_2,\cdots,A_n,\cdots$是两两互不相容的事件，即对任意$i \neq j$，有$A_i \cap A_j = \emptyset$，则有
$$
P\left(\cup_{i=1}^\infty A_i\right) = \sum_{i=1}^\infty P(A_i).
$$

随机变量：随机事件的数量表现，是随机事件实数化的结果。常用$X,Y,Z$等来表示。随机变量的值域往往是实数或其子集。

例一：在投掷两枚均匀硬币的过程中，样本空间为$\Omega = {\text{正正，正反，反正，反反}}$。我们关心的是硬币投掷的结果是否均为正面，或硬币投掷的结果是否不同。设随机事件$A$表示“硬币投掷的结果均为正面”，即$A = {\text{正正}}$。设随机事件$B$表示“硬币投掷的结果不同”，即$B = {\text{正反，反正}}$。设$X$表示出现硬币正面朝上的次数。于是
$$
X = \begin{cases}
0 & \text{两反}\
1 & \text{一正一反}\
2 & \text{两正}\
\end{cases}
$$
设$Y$表示出现两枚硬币是否均为正面。于是
$$
X = \begin{cases}
1 & \text{是}\
0 & \text{否}\
\end{cases}
$$
我们可以发现，${X=2}$和${Y=1}$都表示两枚硬币均出现正面的现象，但所构造的随机变量不同。这表明，随机变量可以根据问题本身而构造，而且构造方式不唯一。

随机变量的表示方式

因为随机变量用来刻画不确定性的结果的，所以，如何量化表示随机变量所代表的不确定性是一个重要的问题。通常，我们采用累积分布函数（c.d.f.）来刻画随机变量，即
$$
F_X(x) = P(X\leq x).
$$
也就是说，$F_{X}(x)$表示的是随机变量$X$小于等于$x$的概率，前面的$X$表示随机变量，后面的$x$表示的是一个实数。

根据概率的性质，累积分布函数满足：（1）单调性；（2）有界性；和（3）右连续性。

除了累积分布函数之外，还有其他常用的方式来刻画随机变量。

分布列/概率质量函数$P(X=x)$：常常用于刻画离散的随机变量；
概率密度函数$p(x)$：常常用于刻画连续的随机变量；
两者均满足：（1）非负性；（2）正则性。

常见的一元随机变量

二项分布

刻画$n$次伯努利试验中成功的次数。
典型例子：抛硬币。
记为 $b(n,p)$，其中，$n$表示试验次数，$p$表示单次伯努利试验成功的概率。
分布列为
$$
P(X = k) = C_n^k p^{k} (1-p)^{n-k}, k=0,1,2,\cdots,n.
$$
特例：二点分布/伯努利分布$b(1,p)$。

负二项分布

刻画在伯努利试验中第$r$次成功所需要的试验次数。
记为$Nb(r,p)$，其中，$r$表示试验的成功次数，$p$表示单次伯努利试验成功的概率。
分布列为
$$
P(X=k) = C_{k-1}^{r-1} p^{r} (1-p)^{k-r-1}
$$
特例：几何分布$Ge(p)= Nb(1,p)$。
无记忆性：$P(X > m+n|X>m) = P(X>n)$。

泊松分布

刻画一个单位内某事件发生的次数。
记为$P(\lambda)$，其中，$\lambda>0$参数。
分布列为
$$
P(X=k) =\frac{\lambda^{k}}{k!} \exp{-\lambda}.
$$
泊松分布可以看作二项分布的一种极限状况（$n$趋于无穷）。

均匀分布

刻画定义在区间$(a,b)$上等概率的取值。
记为$U(a,b)$，其中，$a,b$是两个参数。
密度函数为
$$
p(x) = \frac{1}{b-a} I(a< x< b).
$$

正态分布

刻画误差的分布。
记为$N(\mu,\sigma^2)$，其中，$\mu\in R$和$\sigma^2>0$是两个参数。
密度函数为
$$
p(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp{-(x-\mu)^2/(2\sigma^2)}, x\in R.
$$
特例：标准正态分布$N(0,1)$。

卡方分布

$n$个独立标准的平方和，即$\chi^2 = \sum_{i=1}^n Z_{i}^2$，其中$Z_i\overset{i.i.d}{\sim} N(0,1)$。
记为$\chi^2 \sim \chi^2(n)$。
$\chi^{2}(n) = Ga(n/2,1/2)$。

$F$分布

两个卡方分布的比值，即$F = \frac{\chi^2_1/m}{\chi^2_2/n}$，其中$\chi_1^2\sim \chi^2(m)$和$\chi_2^2\sim \chi^2(n)$且$\chi^2_1$和$\chi_2^2$独立。
记为$F \sim F(m,n)$。

$t$分布

一个标准正态分布与一个卡方分布的平方根的比值，即$t = \frac{Z}{\sqrt{\chi^2/n}}$，其中$Z\sim N(0,1)$和$\chi^2\sim \chi^2(n)$且$Z$和$\chi^2$独立。
记为$t \sim t(n)$。

指数分布

刻画寿命。
记为$Exp(\lambda)$，其中，$\lambda>0$是参数。
密度函数为
$$
p(x) = \lambda \exp{-\lambda x}, x>0.
$$
无记忆性。

Gamma 分布

Gamma函数 $\Gamma(\alpha) = \int_{0}^{\infty} x^{\alpha-1} \exp{-x} \text{d} x$。
Gamma函数的性质：

$\Gamma(1) = 1$；
$\Gamma(1/2) = \sqrt{\pi}$；
$\Gamma(\alpha+1) = \alpha \Gamma(\alpha)$；
$\Gamma(n+1) = n\Gamma(n) = n!$；

记为$Ga(\alpha,\lambda)$, 其中，$\alpha>0$是形状参数,$\lambda>0$是尺度参数。
密度函数为
$$
p(x) = \frac{\lambda^{\alpha}}{\Gamma(\alpha)} x^{\alpha-1} \exp{-\lambda x}, x>0
$$
特例：$Exp(\lambda) = Ga(1,\lambda)$。

Beta 分布

Beta函数 $B(a,b) = \int_{0}^1 x^{a-1} (1-x)^{b-1} \text{d}x, a,b>0$。
Beta函数的性质：

$B(a,b) = B(b,a)$；
$B(a,b) = \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}$

记为$Be(a,b)$，其中，$a,b>0$是两个参数。
密度函数为
$$
p(x) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} x^{a-1} (1-x)^{b-1}, 0<x<1.
$$

随机向量

$\mathbf{X} = (X_1,X_2,\cdots,X_p)’$是基于同一个样本空间而定义的$p$维随机向量，其中每一维$X_i$是第$i$个随机变量。
联合分布函数为
$$
F(x_1,x_2,\cdots,x_p) = P(X_1\leq x_1, X_2 \leq x_2,\cdots,X_p \leq x_p).
$$
联合分布列为$P(X_1 = x_1,X_2=x_2,\cdots,X_p = x_p).$
联合分布列为$p(x_1,x_2,\cdots,x_p)$满足
$$
F(x_1,x_2,\cdots,x_p) = \int_{-\infty}^{x_1}\int_{-\infty}^{x_2}\cdots \int_{-\infty}^{x_p} p(t_1,t_2,\cdots,t_p) \text{d}t_p \cdots \text{d}x_2 \text{d}x_1.
$$
边际分布函数为$F_{X_i}(x_i) = P(X_i\leq x_i)$；
边际分布列为$P(X_i = x_i)$；
边际密度函数为$p(x_i)$；
独立性满足

$F(x_1,x_2,\cdots,x_p) = \prod_{i=1}^p F(x_i)$；
$P(X_1 = x_1,X_2=x_2,\cdots,X_p = x_p) = \prod_{i=1}^p P(X_i = x_i)$；
$p(x_1,x_2,\cdots,x_p) = \prod_{i=1}^p p(x_i)$。

$X$与$Y$独立，指的是$X$发生与否与$Y$发生与否是无关的。

随机变量的数字特征

期望

衡量随机变量的平均水平。
计算方式为
$$
E(X) = \begin{cases}
\int_{-\infty}^{\infty} x p(x) \text{d}x, \text{$X$是连续随机变量}\
\sum_{x_i} x_i P(X=x_i) , \text{$X$是离散随机变量}
\end{cases}
$$
期望的性质：

$E(aX) = aE(X)$，$a$是一个常数。
$E(a) = a$，$a$是一个常数。
$E(X+Y) = E(X) + E(Y)$。
若$X$和$Y$独立，有$E(XY) = E(X)E(Y)$。

方差

衡量随机变量的波动情况。
计算方式为
$$
Var(X) = \begin{cases}
\int_{-\infty}^{\infty} (x-E(X))^2 p(x) \text{d}x, \text{$X$是连续随机变量}\\
\sum_{x_i} (x_i-E(X))^2 P(X=x_i) , \text{$X$是离散随机变量}
\end{cases}
$$
方差的性质：

$Var(X) = E(X^2) - (E(X))^2$.
$Var(aX+b) = a^2E(X)$，$a$是一个常数。
$Var(a) = 0$，$a$是一个常数。
切比雪夫不等式：$P(|X-E(X)|\geq \epsilon) \leq \frac{Var(X)}{\epsilon^2}$。
若$X$和$Y$独立，有$Var(X\pm Y) = Var(X) + Var(Y)$。

常见分布的期望与方差

常见分布	期望	方差
$b(n,p)$	$np$	$np(1-p)$
$Nb(r,p)$	$r/p$	$r(1-p)/p^2$
$P(\lambda)$	$\lambda$	$\lambda$
$U(a,b)$	$(a+b)/2$	$(b-a)^2/12$
$N(\mu,\sigma^2)$	$\mu$	$\sigma^2$
$Exp(\lambda)$	$1/\lambda$	$1/\lambda^2$
$Ga(\alpha,\lambda)$	$\alpha/\lambda$	$\alpha/\lambda^2$
$Be(a,b)$	$a/(a+b)$	$\frac{a(a+b)}{(a+b+1)^2(a+b+2)}$

协方差与相关系数

协方差：$Cov(X,Y) = E(X-E(X))(Y-E(Y)) = E(XY)- E(X)E(Y)$；
特例：$Cov(X,X) = Var(X)$；
若$X$和$Y$独立，有$Cov(X,Y)=0$；
$Var(X\pm Y) = Var(X) + Var(Y) \pm 2 Cov(X,Y)$；
$Cov(X,Y) = Cov(Y,X)$；
$Cov(X,a) = 0$，$a$是一个常数；
$Cov(aX,bY) = ab Cov(X,Y) $，$a,b$是常数；
$Cov(X+Y,Z) = Cov(X,Z) + Cov(Y,Z)$。
相关系数为
$$
Corr(X,Y) = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}.
$$
$-1 \leq Corr(X,Y)\leq 1$；
若$ Corr(X,Y)>0$，则$X$和$Y$是正（线性）相关；
若$ Corr(X,Y)<0$，则$X$和$Y$是负（线性）相关；
若$ Corr(X,Y)=0$，则$X$和$Y$是不相关；

分位数

$p$分位数定义为$x_p$满足$ p = \int_{-\infty}^{x_p} p(x) \text{d}x$。

常见分布的分位数

常见分布	分位数
$N(0,1)$	$z_{p}$
$\chi^2(n)$	$\chi^2_{p}(n)$
$t(n)$	$t_{p}(n)$
$F(m,n)$	$F_{p}(m,n)$

多元正态随机向量

$\mathbf{X} \sim N_{p}(\mathbf{\mu},\Sigma)$；
均值向量$\mathbf{\mu} = (\mu_1,\mu_2,\cdots,\mu_p)’$，其中$\mu_{i} = E(X_i)$；
方差-协方差矩阵为
$$
Cov = \left(
\begin{matrix}
Var(X_1) & Cov(X_1,X_2) & \cdots & Cov(X_1,X_p)\\
Cov(X_2,X_1) & Var(X_2) & \cdots & Cov(X_2,X_p)\\
\vdots & \vdots & & \vdots \\
Cov(X_p,X_1) & Cov(X_p,X_2) & \cdots & Var(X_p)\\
\end{matrix}
\right)
$$
密度函数为
$$
p(\mathbf{x}) = (2\pi)^{-p/2} \det(\Sigma)^{-1/2} \exp{ -(\mathbf{x} - \mathbf{\mu})’ \Sigma^{-1} (\mathbf{x} - \mathbf{\mu})/2 }.
$$

重要定理

若$x_1,x_2,\cdots,x_n$是来自于正态分布$N(\mu,\sigma^2)$的样本。我们可以证明

样本均值$\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i \sim N(\mu,\sigma^2/n)$.
样本方差$s^2 = \frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2$ 满足$(n-1)s^2/\sigma^2 \sim \chi^2(n-1)$.
$\bar{x}$与$s^2$独立。

Part Two：Estimation

点估计（Point Estimation）

估计的三种思想：

替换
似然
拟合

最大似然估计

似然函数<=>联合密度函数
例：总体分布$X\sim N(\mu,\sigma^2)$。令参数$\theta = (\mu,\sigma^2)’$。现有$x_1,x_2,\cdots,x_n$是样本。欲估计$\theta$。
我们可以定义似然函数为
$$
L(\theta) = \prod_{i=1}^n p(x_i) = (2\pi\sigma^2)^{-n/2} \exp{- \frac{1}{2\sigma^2} \sum_{i=1}^n(x_i - \mu)^2 } .
$$
其对数似然函数为
$$
l(\theta) = \ln L(\theta) = -\frac{n}{2}\ln(2\pi) -\frac{n}{2} \ln (\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n(x_i - \mu)^2.
$$
关于$\mu$和$\sigma^2$分别求偏导，即
$$
\frac{\partial l}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^n(x_i - \mu) = 0,
$$

$$
\frac{\partial l}{\partial \sigma^2} = - \frac{n/2}{\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^n(x_i - \mu)^2= 0.
$$

于是，我们可以得到最大似然估计为
$$
\hat{\mu} = \bar{x}, \hat{\sigma}^2 = s_n^2 = \frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2.
$$

区间估计（Interval Estimation）

枢轴量法

例：现有$x_1,x_2,\cdots,x_n\sim N(\mu,\sigma^2)$。欲给出$\mu$置信水平为$1-\alpha$的置信区间。

如果$\sigma^2$已知，我们记$\sigma^2 =\sigma^2_0 $。

点估计：$\hat{\mu} = \bar{x}$；
分布：$\bar{x} \sim N(\mu,\sigma_0^2/n)$；
标准化：$\frac{\hat{\mu}-\mu}{\sqrt{\sigma_0^2/n}} \sim N(0,1)$；这里$\frac{\hat{\mu}-\mu}{\sqrt{\sigma_0^2/n}}$就是所定义的枢轴量；
可以确定c_1,c_2分别为$\pm z_{1-\alpha/2}$使得
$$
P(c_1\leq \frac{\hat{\mu}-\mu}{\sqrt{\sigma_0^2/n}}\leq c_2) = 1-\alpha
$$
关注这个区间${-z_{1-\alpha/2} \leq \frac{\bar{x}-\mu}{\sqrt{\sigma_0^2/n}}\leq z_{1-\alpha/2}}$可以转化为
$$
\bar{x} - z_{1-\alpha/2} \sqrt{\sigma_0^2/n}\leq \mu \leq \bar{x} +z_{1-\alpha/2} \sqrt{\sigma_0^2/n}.
$$

1. 如果$\sigma^2$未知，我们如何得到区间估计？

点估计：$\hat{\mu} = \bar{x}$；
分布：$\bar{x} \sim N(\mu,\sigma_0^2/n)$；
标准化：$\frac{\hat{\mu}-\mu}{\sqrt{\sigma_0^2/n}} \sim N(0,1)$；
因为$\sigma^2$未知，我们用$\hat{\sigma}^2$代替$\sigma^2$，即枢轴量为
$$
G = $\frac{\hat{\mu}-\mu}{\sqrt{\hat{\sigma}^2/n}} \sim t(n-1)$
$$
可以确定c_1,c_2分别为$\pm t_{1-\alpha/2}(n-1)$使得
$$
P(c_1\leq \frac{\hat{\mu}-\mu}{\sqrt{\sigma_0^2/n}}\leq c_2) = 1-\alpha
$$
关注这个区间${-t_{1-\alpha/2}(n-1)\leq \frac{\bar{x}-\mu}{\sqrt{\sigma_0^2/n}}\leq t_{1-\alpha/2}(n-1)}$可以转化为
$$
\bar{x} - t_{1-\alpha/2}(n-1) \sqrt{\sigma_0^2/n}\leq \mu \leq \bar{x} +t_{1-\alpha/2}(n-1) \sqrt{\sigma_0^2/n}.
$$

Part Three：Hypothesis Testing

这里我们考虑正态总体分布的参数假设检验。

单个正态分布

背景问题：研究大厂的程序员的平均年龄是否不大于35岁？

例：$x_1,x_2,\cdots,x_n \sim N(\mu,\sigma^2)$。

如果$\sigma^2$已知。欲检验
$$
H_0: \mu = \mu_0 \quad \text{vs} \quad H_1: \mu> \mu_0.
$$
我们希望构造的拒绝域为$W = {\bar{x} > c}$。接下来，我们的核心问题是$c$是多少？考虑在原假设成立时，$P(\bar{x}>c|H_0) \leq \alpha$。当原假设成立时，
$$
\bar{x} \sim N(0,\sigma^2).
$$
那么这个概率
$$
\alpha\geq P(\bar{x}>c|H_0) = P(\bar{x}/\sqrt{\sigma^2/n}>c/\sqrt{\sigma^2/n}) = 1- \Phi(c/\sqrt{\sigma^2/n})
$$
于是，$c = z_{1-\alpha} \sqrt{\sigma^2/n}$。所以，拒绝域为$W = {\bar{x} > z_{1-\alpha} \sqrt{\sigma^2/n}} = {\bar{x}/\sqrt{\sigma^2/n} >z_{1-\alpha} }$。这里$\bar{x}/\sqrt{\sigma^2/n}$是检验统计量。
如果$\sigma^2$未知。欲检验
$$
H_0: \mu \leq \mu_0 \quad \text{vs} \quad H_1: \mu> \mu_0.
$$
检验统计量为$\bar{x}/\sqrt{\hat{\sigma}^2/n}$，其拒绝域为${\bar{x}/\sqrt{\hat{\sigma}^2/n} >t_{1-\alpha}(n-1) }$
如果$\sigma^2$未知。欲检验
$$
H_0: \mu = \mu_0 \quad \text{vs} \quad H_1: \mu \neq \mu_0.
$$
检验统计量为$\bar{x}/\sqrt{\hat{\sigma}^2/n}$，其拒绝域为${\left|\bar{x}/\sqrt{\hat{\sigma}^2/n}\right| >t_{1-\alpha/2}(n-1) }$

$p$值是当前样本及其更极端情况发生的概率。当$p<\alpha$，则拒绝原假设。

两个正态分布

例：有两个独立样本$x_1,x_2,\cdots,x_m \sim N(\mu_1,\sigma^2)$和$y_1,y_2,\cdots,y_n \sim N(\mu_2,\sigma^2)$。这里$\sigma^2$未知。
令$\theta = \mu_1- \mu2$。欲检验
$$
H_0: \theta = 0 \quad \text{vs} \quad H_1: \theta \neq 0.
$$
检验统计量为
$$
t = \frac{\bar{x} - \bar{y}}{\sqrt{s_w^2 (1/m+1/n)}} .
$$
其拒绝域为 ${|t| > t_{1-\alpha/2}(m+n-2)}$.

假设检验与区间估计是相对应的。

sitJac's Blog

Probability Tutorial Zero

Tutorial Zero: Preliminaries

Part One：Statistics and Sampling Distribution

随机变量的定义及常见分布

随机变量的定义

随机变量的表示方式

常见的一元随机变量

二项分布

负二项分布

泊松分布

均匀分布

正态分布

卡方分布

$F$分布

$t$分布

指数分布

Gamma 分布

Beta 分布

随机向量

随机变量的数字特征

期望

方差

常见分布的期望与方差

协方差与相关系数

分位数

常见分布的分位数

多元正态随机向量

重要定理

Part Two：Estimation

点估计（Point Estimation）

最大似然估计

区间估计（Interval Estimation）

枢轴量法

Part Three：Hypothesis Testing

单个正态分布

两个正态分布

Tutorial Zero: Preliminaries

Part One：Statistics and Sampling Distribution

随机变量的定义及常见分布

随机变量的定义

随机变量的表示方式

常见的一元随机变量

二项分布

负二项分布

泊松分布

均匀分布

正态分布

卡方分布

$F$分布

$t$分布

指数分布

Gamma 分布

Beta 分布

随机向量

随机变量的数字特征

期望

方差

常见分布的期望与方差

协方差与相关系数

分位数

常见分布的分位数

多元正态随机向量

重要定理

Part Two：Estimation

点估计 （Point Estimation）

最大似然估计

区间估计（Interval Estimation）

枢轴量法

Part Three：Hypothesis Testing

单个正态分布

两个正态分布

点估计（Point Estimation）