- 统计和机器学习 - 2022秋季研究生课程预备知识
- 概率论基础:
- 随机现象、随机事件、随机变量、概率、分布函数、期望、方差等概念
- 常见的一元和多元随机变量的分布和性质
- 点估计和区间估计:
- 估计的三种思想(替换、似然、拟合)
- 最大似然估计
- 利用枢轴量法构造区间估计
- 区间估计与假设检验的对应关系
- 假设检验:
- 假设检验的基本步骤和方法
- 如何利用检验统计量、拒绝域和 p 值进行检验
- 如何对单个正态分布和两个正态分布的参数进行假设检验
Tutorial Zero: Preliminaries
Part One:Statistics and Sampling Distribution
- 数据: ${x_i: i=1,2,\cdots,n}$
- 常见假定:独立同分布,也就是说,
$$
x_i \overset{i.i.d}{\sim} X
$$
其中,$X$是一个随机变量。
随机变量的定义及常见分布
随机变量的定义
- 随机现象:出现的结果不唯一,事前无法得知哪种结果出现的现象。
- 投掷骰子的结果;
- 抽签分组的结果;
- 从家到学校所花费的时间;
- 明天的上证指数;
样本空间:随机现象的所有结果。常用$\Omega$来表示。
随机事件:样本空间中的一个我们所关心的子集,常用大写的英文字母来表示,如A,B,C等。特别的随机事件类型有:
必然事件:一定会发生的事件,$\Omega$;
不可能事件:一定不会发生的事件,$\emptyset$;
概率:一个随机事件发生的可能性;
概率的公理化定义:在一个样本空间$\Omega$及其事件域$\mathcal{F}$中,对于任意随机事件$A \in \mathcal{F}$,其概率$P(A)$是一个实数,且满足:
- 非负性:$P(A) \geq 0$.
- 正则性:对于必然事件$\Omega$, $P(\Omega) = 1$;
- 可列可加性:若$A_1,A_2,\cdots,A_n,\cdots$是两两互不相容的事件,即对任意$i \neq j$,有$A_i \cap A_j = \emptyset$,则有
$$
P\left(\cup_{i=1}^\infty A_i\right) = \sum_{i=1}^\infty P(A_i).
$$
- 随机变量:随机事件的数量表现,是随机事件实数化的结果。常用$X,Y,Z$等来表示。随机变量的值域往往是实数或其子集。
例一:在投掷两枚均匀硬币的过程中,样本空间为$\Omega = {\text{正正,正反,反正,反反}}$。我们关心的是硬币投掷的结果是否均为正面,或硬币投掷的结果是否不同。设随机事件$A$表示“硬币投掷的结果均为正面”,即$A = {\text{正正}}$。设随机事件$B$表示“硬币投掷的结果不同”,即$B = {\text{正反,反正}}$。设$X$表示出现硬币正面朝上的次数。于是
$$
X = \begin{cases}
0 & \text{两反}\
1 & \text{一正一反}\
2 & \text{两正}\
\end{cases}
$$
设$Y$表示出现两枚硬币是否均为正面。于是
$$
X = \begin{cases}
1 & \text{是}\
0 & \text{否}\
\end{cases}
$$
我们可以发现,${X=2}$和${Y=1}$都表示两枚硬币均出现正面的现象,但所构造的随机变量不同。这表明,随机变量可以根据问题本身而构造,而且构造方式不唯一。
随机变量的表示方式
因为随机变量用来刻画不确定性的结果的,所以,如何量化表示随机变量所代表的不确定性是一个重要的问题。通常,我们采用累积分布函数(c.d.f.)来刻画随机变量,即
$$
F_X(x) = P(X\leq x).
$$
也就是说,$F_{X}(x)$表示的是随机变量$X$小于等于$x$的概率,前面的$X$表示随机变量,后面的$x$表示的是一个实数。
根据概率的性质,累积分布函数满足:(1)单调性;(2)有界性;和(3)右连续性。
除了累积分布函数之外,还有其他常用的方式来刻画随机变量。
- 分布列/概率质量函数$P(X=x)$:常常用于刻画离散的随机变量;
- 概率密度函数$p(x)$:常常用于刻画连续的随机变量;
两者均满足:(1)非负性;(2)正则性。
常见的一元随机变量
二项分布
- 刻画$n$次伯努利试验中成功的次数。
- 典型例子:抛硬币。
- 记为 $b(n,p)$,其中,$n$表示试验次数,$p$表示单次伯努利试验成功的概率。
- 分布列为
$$
P(X = k) = C_n^k p^{k} (1-p)^{n-k}, k=0,1,2,\cdots,n.
$$ - 特例:二点分布/伯努利分布$b(1,p)$。
负二项分布
- 刻画在伯努利试验中第$r$次成功所需要的试验次数。
- 记为$Nb(r,p)$,其中,$r$表示试验的成功次数,$p$表示单次伯努利试验成功的概率。
- 分布列为
$$
P(X=k) = C_{k-1}^{r-1} p^{r} (1-p)^{k-r-1}
$$ - 特例:几何分布$Ge(p)= Nb(1,p)$。
- 无记忆性:$P(X > m+n|X>m) = P(X>n)$。
泊松分布
- 刻画一个单位内某事件发生的次数。
- 记为$P(\lambda)$,其中,$\lambda>0$参数。
- 分布列为
$$
P(X=k) =\frac{\lambda^{k}}{k!} \exp{-\lambda}.
$$ - 泊松分布可以看作二项分布的一种极限状况($n$趋于无穷)。
均匀分布
- 刻画定义在区间$(a,b)$上等概率的取值。
- 记为$U(a,b)$,其中,$a,b$是两个参数。
- 密度函数为
$$
p(x) = \frac{1}{b-a} I(a< x< b).
$$
正态分布
- 刻画误差的分布。
- 记为$N(\mu,\sigma^2)$,其中,$\mu\in R$和$\sigma^2>0$是两个参数。
- 密度函数为
$$
p(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp{-(x-\mu)^2/(2\sigma^2)}, x\in R.
$$ - 特例:标准正态分布$N(0,1)$。
卡方分布
- $n$个独立标准的平方和,即$\chi^2 = \sum_{i=1}^n Z_{i}^2$,其中$Z_i\overset{i.i.d}{\sim} N(0,1)$。
- 记为$\chi^2 \sim \chi^2(n)$。
- $\chi^{2}(n) = Ga(n/2,1/2)$。
$F$分布
- 两个卡方分布的比值,即$F = \frac{\chi^2_1/m}{\chi^2_2/n}$,其中$\chi_1^2\sim \chi^2(m)$和$\chi_2^2\sim \chi^2(n)$且$\chi^2_1$和$\chi_2^2$独立。
- 记为$F \sim F(m,n)$。
$t$分布
- 一个标准正态分布与一个卡方分布的平方根的比值,即$t = \frac{Z}{\sqrt{\chi^2/n}}$,其中$Z\sim N(0,1)$和$\chi^2\sim \chi^2(n)$且$Z$和$\chi^2$独立。
- 记为$t \sim t(n)$。
指数分布
- 刻画寿命。
- 记为$Exp(\lambda)$,其中,$\lambda>0$是参数。
- 密度函数为
$$
p(x) = \lambda \exp{-\lambda x}, x>0.
$$ - 无记忆性。
Gamma 分布
- Gamma函数 $\Gamma(\alpha) = \int_{0}^{\infty} x^{\alpha-1} \exp{-x} \text{d} x$。
- Gamma函数的性质:
- $\Gamma(1) = 1$;
- $\Gamma(1/2) = \sqrt{\pi}$;
- $\Gamma(\alpha+1) = \alpha \Gamma(\alpha)$;
- $\Gamma(n+1) = n\Gamma(n) = n!$;
- 记为$Ga(\alpha,\lambda)$, 其中,$\alpha>0$是形状参数,$\lambda>0$是尺度参数。
- 密度函数为
$$
p(x) = \frac{\lambda^{\alpha}}{\Gamma(\alpha)} x^{\alpha-1} \exp{-\lambda x}, x>0
$$ - 特例:$Exp(\lambda) = Ga(1,\lambda)$。
Beta 分布
- Beta函数 $B(a,b) = \int_{0}^1 x^{a-1} (1-x)^{b-1} \text{d}x, a,b>0$。
- Beta函数的性质:
- $B(a,b) = B(b,a)$;
- $B(a,b) = \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}$
- 记为$Be(a,b)$,其中,$a,b>0$是两个参数。
- 密度函数为
$$
p(x) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} x^{a-1} (1-x)^{b-1}, 0<x<1.
$$
随机向量
$\mathbf{X} = (X_1,X_2,\cdots,X_p)’$是基于同一个样本空间而定义的$p$维随机向量,其中每一维$X_i$是第$i$个随机变量。
联合分布函数为
$$
F(x_1,x_2,\cdots,x_p) = P(X_1\leq x_1, X_2 \leq x_2,\cdots,X_p \leq x_p).
$$联合分布列为$P(X_1 = x_1,X_2=x_2,\cdots,X_p = x_p).$
联合分布列为$p(x_1,x_2,\cdots,x_p)$满足
$$
F(x_1,x_2,\cdots,x_p) = \int_{-\infty}^{x_1}\int_{-\infty}^{x_2}\cdots \int_{-\infty}^{x_p} p(t_1,t_2,\cdots,t_p) \text{d}t_p \cdots \text{d}x_2 \text{d}x_1.
$$边际分布函数为$F_{X_i}(x_i) = P(X_i\leq x_i)$;
边际分布列为$P(X_i = x_i)$;
边际密度函数为$p(x_i)$;
独立性满足
- $F(x_1,x_2,\cdots,x_p) = \prod_{i=1}^p F(x_i)$;
- $P(X_1 = x_1,X_2=x_2,\cdots,X_p = x_p) = \prod_{i=1}^p P(X_i = x_i)$;
- $p(x_1,x_2,\cdots,x_p) = \prod_{i=1}^p p(x_i)$。
- $X$与$Y$独立,指的是$X$发生与否与$Y$发生与否是无关的。
随机变量的数字特征
期望
- 衡量随机变量的平均水平。
- 计算方式为
$$
E(X) = \begin{cases}
\int_{-\infty}^{\infty} x p(x) \text{d}x, \text{$X$是连续随机变量}\
\sum_{x_i} x_i P(X=x_i) , \text{$X$是离散随机变量}
\end{cases}
$$ - 期望的性质:
- $E(aX) = aE(X)$,$a$是一个常数。
- $E(a) = a$,$a$是一个常数。
- $E(X+Y) = E(X) + E(Y)$。
- 若$X$和$Y$独立, 有$E(XY) = E(X)E(Y)$。
方差
- 衡量随机变量的波动情况。
- 计算方式为
$$
Var(X) = \begin{cases}
\int_{-\infty}^{\infty} (x-E(X))^2 p(x) \text{d}x, \text{$X$是连续随机变量}\\
\sum_{x_i} (x_i-E(X))^2 P(X=x_i) , \text{$X$是离散随机变量}
\end{cases}
$$ - 方差的性质:
- $Var(X) = E(X^2) - (E(X))^2$.
- $Var(aX+b) = a^2E(X)$,$a$是一个常数。
- $Var(a) = 0$,$a$是一个常数。
- 切比雪夫不等式:$P(|X-E(X)|\geq \epsilon) \leq \frac{Var(X)}{\epsilon^2}$。
- 若$X$和$Y$独立,有$Var(X\pm Y) = Var(X) + Var(Y)$。
常见分布的期望与方差
常见分布 | 期望 | 方差 |
$b(n,p)$ | $np$ | $np(1-p)$ |
$Nb(r,p)$ | $r/p$ | $r(1-p)/p^2$ |
$P(\lambda)$ | $\lambda$ | $\lambda$ |
$U(a,b)$ | $(a+b)/2$ | $(b-a)^2/12$ |
$N(\mu,\sigma^2)$ | $\mu$ | $\sigma^2$ |
$Exp(\lambda)$ | $1/\lambda$ | $1/\lambda^2$ |
$Ga(\alpha,\lambda)$ | $\alpha/\lambda$ | $\alpha/\lambda^2$ |
$Be(a,b)$ | $a/(a+b)$ | $\frac{a(a+b)}{(a+b+1)^2(a+b+2)}$ |
协方差与相关系数
协方差:$Cov(X,Y) = E(X-E(X))(Y-E(Y)) = E(XY)- E(X)E(Y)$;
特例:$Cov(X,X) = Var(X)$;
若$X$和$Y$独立,有$Cov(X,Y)=0$;
$Var(X\pm Y) = Var(X) + Var(Y) \pm 2 Cov(X,Y)$;
$Cov(X,Y) = Cov(Y,X)$;
$Cov(X,a) = 0$,$a$是一个常数;
$Cov(aX,bY) = ab Cov(X,Y) $,$a,b$是常数;
$Cov(X+Y,Z) = Cov(X,Z) + Cov(Y,Z)$。
相关系数为
$$
Corr(X,Y) = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}.
$$$-1 \leq Corr(X,Y)\leq 1$;
若$ Corr(X,Y)>0$,则$X$和$Y$是正(线性)相关;
若$ Corr(X,Y)<0$,则$X$和$Y$是负(线性)相关;
若$ Corr(X,Y)=0$,则$X$和$Y$是不相关;
分位数
- $p$分位数定义为$x_p$满足$ p = \int_{-\infty}^{x_p} p(x) \text{d}x$。
常见分布的分位数
常见分布 | 分位数 |
$N(0,1)$ | $z_{p}$ |
$\chi^2(n)$ | $\chi^2_{p}(n)$ |
$t(n)$ | $t_{p}(n)$ |
$F(m,n)$ | $F_{p}(m,n)$ |
多元正态随机向量
- $\mathbf{X} \sim N_{p}(\mathbf{\mu},\Sigma)$;
- 均值向量$\mathbf{\mu} = (\mu_1,\mu_2,\cdots,\mu_p)’$,其中$\mu_{i} = E(X_i)$;
- 方差-协方差矩阵为
$$
Cov = \left(
\begin{matrix}
Var(X_1) & Cov(X_1,X_2) & \cdots & Cov(X_1,X_p)\\
Cov(X_2,X_1) & Var(X_2) & \cdots & Cov(X_2,X_p)\\
\vdots & \vdots & & \vdots \\
Cov(X_p,X_1) & Cov(X_p,X_2) & \cdots & Var(X_p)\\
\end{matrix}
\right)
$$ - 密度函数为
$$
p(\mathbf{x}) = (2\pi)^{-p/2} \det(\Sigma)^{-1/2} \exp{ -(\mathbf{x} - \mathbf{\mu})’ \Sigma^{-1} (\mathbf{x} - \mathbf{\mu})/2 }.
$$
重要定理
若$x_1,x_2,\cdots,x_n$是来自于正态分布$N(\mu,\sigma^2)$的样本。我们可以证明
- 样本均值$\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i \sim N(\mu,\sigma^2/n)$.
- 样本方差$s^2 = \frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2$ 满足$(n-1)s^2/\sigma^2 \sim \chi^2(n-1)$.
- $\bar{x}$与$s^2$独立。
Part Two:Estimation
点估计 (Point Estimation)
- 估计的三种思想:
- 替换
- 似然
- 拟合
最大似然估计
- 似然函数<=>联合密度函数
例:总体分布$X\sim N(\mu,\sigma^2)$。令参数$\theta = (\mu,\sigma^2)’$。现有$x_1,x_2,\cdots,x_n$是样本。欲估计$\theta$。
我们可以定义似然函数为
$$
L(\theta) = \prod_{i=1}^n p(x_i) = (2\pi\sigma^2)^{-n/2} \exp{- \frac{1}{2\sigma^2} \sum_{i=1}^n(x_i - \mu)^2 } .
$$
其对数似然函数为
$$
l(\theta) = \ln L(\theta) = -\frac{n}{2}\ln(2\pi) -\frac{n}{2} \ln (\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n(x_i - \mu)^2.
$$
关于$\mu$和$\sigma^2$分别求偏导,即
$$
\frac{\partial l}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^n(x_i - \mu) = 0,
$$
$$
\frac{\partial l}{\partial \sigma^2} = - \frac{n/2}{\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^n(x_i - \mu)^2= 0.
$$
于是,我们可以得到最大似然估计为
$$
\hat{\mu} = \bar{x}, \hat{\sigma}^2 = s_n^2 = \frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2.
$$
区间估计(Interval Estimation)
枢轴量法
例:现有$x_1,x_2,\cdots,x_n\sim N(\mu,\sigma^2)$。欲给出$\mu$置信水平为$1-\alpha$的置信区间。
- 如果$\sigma^2$已知,我们记$\sigma^2 =\sigma^2_0 $。
- 点估计:$\hat{\mu} = \bar{x}$;
- 分布:$\bar{x} \sim N(\mu,\sigma_0^2/n)$;
- 标准化:$\frac{\hat{\mu}-\mu}{\sqrt{\sigma_0^2/n}} \sim N(0,1)$;这里$\frac{\hat{\mu}-\mu}{\sqrt{\sigma_0^2/n}}$就是所定义的枢轴量;
- 可以确定c_1,c_2分别为$\pm z_{1-\alpha/2}$使得
$$
P(c_1\leq \frac{\hat{\mu}-\mu}{\sqrt{\sigma_0^2/n}}\leq c_2) = 1-\alpha
$$ - 关注这个区间${-z_{1-\alpha/2} \leq \frac{\bar{x}-\mu}{\sqrt{\sigma_0^2/n}}\leq z_{1-\alpha/2}}$可以转化为
$$
\bar{x} - z_{1-\alpha/2} \sqrt{\sigma_0^2/n}\leq \mu \leq \bar{x} +z_{1-\alpha/2} \sqrt{\sigma_0^2/n}.
$$
- 如果$\sigma^2$未知,我们如何得到区间估计?
- 点估计:$\hat{\mu} = \bar{x}$;
- 分布:$\bar{x} \sim N(\mu,\sigma_0^2/n)$;
- 标准化:$\frac{\hat{\mu}-\mu}{\sqrt{\sigma_0^2/n}} \sim N(0,1)$;
- 因为$\sigma^2$未知,我们用$\hat{\sigma}^2$代替$\sigma^2$,即枢轴量为
$$
G = $\frac{\hat{\mu}-\mu}{\sqrt{\hat{\sigma}^2/n}} \sim t(n-1)$
$$ - 可以确定c_1,c_2分别为$\pm t_{1-\alpha/2}(n-1)$使得
$$
P(c_1\leq \frac{\hat{\mu}-\mu}{\sqrt{\sigma_0^2/n}}\leq c_2) = 1-\alpha
$$ - 关注这个区间${-t_{1-\alpha/2}(n-1)\leq \frac{\bar{x}-\mu}{\sqrt{\sigma_0^2/n}}\leq t_{1-\alpha/2}(n-1)}$可以转化为
$$
\bar{x} - t_{1-\alpha/2}(n-1) \sqrt{\sigma_0^2/n}\leq \mu \leq \bar{x} +t_{1-\alpha/2}(n-1) \sqrt{\sigma_0^2/n}.
$$
Part Three:Hypothesis Testing
这里我们考虑正态总体分布的参数假设检验。
单个正态分布
背景问题:研究大厂的程序员的平均年龄是否不大于35岁?
例:$x_1,x_2,\cdots,x_n \sim N(\mu,\sigma^2)$。
- 如果$\sigma^2$已知。欲检验
$$
H_0: \mu = \mu_0 \quad \text{vs} \quad H_1: \mu> \mu_0.
$$
我们希望构造的拒绝域为$W = {\bar{x} > c}$。接下来,我们的核心问题是$c$是多少?考虑在原假设成立时,$P(\bar{x}>c|H_0) \leq \alpha$。当原假设成立时,
$$
\bar{x} \sim N(0,\sigma^2).
$$
那么这个概率
$$
\alpha\geq P(\bar{x}>c|H_0) = P(\bar{x}/\sqrt{\sigma^2/n}>c/\sqrt{\sigma^2/n}) = 1- \Phi(c/\sqrt{\sigma^2/n})
$$
于是,$c = z_{1-\alpha} \sqrt{\sigma^2/n}$。所以,拒绝域为$W = {\bar{x} > z_{1-\alpha} \sqrt{\sigma^2/n}} = {\bar{x}/\sqrt{\sigma^2/n} >z_{1-\alpha} }$。这里$\bar{x}/\sqrt{\sigma^2/n}$是检验统计量。 - 如果$\sigma^2$未知。欲检验
$$
H_0: \mu \leq \mu_0 \quad \text{vs} \quad H_1: \mu> \mu_0.
$$
检验统计量为$\bar{x}/\sqrt{\hat{\sigma}^2/n}$,其拒绝域为${\bar{x}/\sqrt{\hat{\sigma}^2/n} >t_{1-\alpha}(n-1) }$ - 如果$\sigma^2$未知。欲检验
$$
H_0: \mu = \mu_0 \quad \text{vs} \quad H_1: \mu \neq \mu_0.
$$
检验统计量为$\bar{x}/\sqrt{\hat{\sigma}^2/n}$,其拒绝域为${\left|\bar{x}/\sqrt{\hat{\sigma}^2/n}\right| >t_{1-\alpha/2}(n-1) }$
- $p$值是当前样本及其更极端情况发生的概率。当$p<\alpha$,则拒绝原假设。
两个正态分布
例:有两个独立样本$x_1,x_2,\cdots,x_m \sim N(\mu_1,\sigma^2)$和$y_1,y_2,\cdots,y_n \sim N(\mu_2,\sigma^2)$。这里$\sigma^2$未知。
令$\theta = \mu_1- \mu2$。欲检验
$$
H_0: \theta = 0 \quad \text{vs} \quad H_1: \theta \neq 0.
$$
检验统计量为
$$
t = \frac{\bar{x} - \bar{y}}{\sqrt{s_w^2 (1/m+1/n)}} .
$$
其拒绝域为 ${|t| > t_{1-\alpha/2}(m+n-2)}$.
- 假设检验与区间估计是相对应的。