0%

Probability Tutorial Zero

  • 统计和机器学习 - 2022秋季研究生课程预备知识
  • 概率论基础:
    • 随机现象、随机事件、随机变量、概率、分布函数、期望、方差等概念
    • 常见的一元和多元随机变量的分布和性质
  • 点估计和区间估计:
    • 估计的三种思想(替换、似然、拟合)
    • 最大似然估计
    • 利用枢轴量法构造区间估计
    • 区间估计与假设检验的对应关系
  • 假设检验:
    • 假设检验的基本步骤和方法
    • 如何利用检验统计量、拒绝域和 p 值进行检验
    • 如何对单个正态分布和两个正态分布的参数进行假设检验

Tutorial Zero: Preliminaries

Part One:Statistics and Sampling Distribution

  • 数据: ${x_i: i=1,2,\cdots,n}$
  • 常见假定:独立同分布,也就是说,
    $$
    x_i \overset{i.i.d}{\sim} X
    $$
    其中,$X$是一个随机变量。

随机变量的定义及常见分布

随机变量的定义

  • 随机现象:出现的结果不唯一,事前无法得知哪种结果出现的现象。
  1. 投掷骰子的结果;
  2. 抽签分组的结果;
  3. 从家到学校所花费的时间;
  4. 明天的上证指数;
  • 样本空间:随机现象的所有结果。常用$\Omega$来表示。

  • 随机事件:样本空间中的一个我们所关心的子集,常用大写的英文字母来表示,如A,B,C等。特别的随机事件类型有:

  • 必然事件:一定会发生的事件,$\Omega$;

  • 不可能事件:一定不会发生的事件,$\emptyset$;

  • 概率:一个随机事件发生的可能性;

  • 概率的公理化定义:在一个样本空间$\Omega$及其事件域$\mathcal{F}$中,对于任意随机事件$A \in \mathcal{F}$,其概率$P(A)$是一个实数,且满足:

  1. 非负性:$P(A) \geq 0$.
  2. 正则性:对于必然事件$\Omega$, $P(\Omega) = 1$;
  3. 可列可加性:若$A_1,A_2,\cdots,A_n,\cdots$是两两互不相容的事件,即对任意$i \neq j$,有$A_i \cap A_j = \emptyset$,则有
    $$
    P\left(\cup_{i=1}^\infty A_i\right) = \sum_{i=1}^\infty P(A_i).
    $$
  • 随机变量:随机事件的数量表现,是随机事件实数化的结果。常用$X,Y,Z$等来表示。随机变量的值域往往是实数或其子集。

例一:在投掷两枚均匀硬币的过程中,样本空间为$\Omega = {\text{正正,正反,反正,反反}}$。我们关心的是硬币投掷的结果是否均为正面,或硬币投掷的结果是否不同。设随机事件$A$表示“硬币投掷的结果均为正面”,即$A = {\text{正正}}$。设随机事件$B$表示“硬币投掷的结果不同”,即$B = {\text{正反,反正}}$。设$X$表示出现硬币正面朝上的次数。于是
$$
X = \begin{cases}
0 & \text{两反}\
1 & \text{一正一反}\
2 & \text{两正}\
\end{cases}
$$
设$Y$表示出现两枚硬币是否均为正面。于是
$$
X = \begin{cases}
1 & \text{是}\
0 & \text{否}\
\end{cases}
$$
我们可以发现,${X=2}$和${Y=1}$都表示两枚硬币均出现正面的现象,但所构造的随机变量不同。这表明,随机变量可以根据问题本身而构造,而且构造方式不唯一。

随机变量的表示方式

因为随机变量用来刻画不确定性的结果的,所以,如何量化表示随机变量所代表的不确定性是一个重要的问题。通常,我们采用累积分布函数(c.d.f.)来刻画随机变量,即
$$
F_X(x) = P(X\leq x).
$$
也就是说,$F_{X}(x)$表示的是随机变量$X$小于等于$x$的概率,前面的$X$表示随机变量,后面的$x$表示的是一个实数。

根据概率的性质,累积分布函数满足:(1)单调性;(2)有界性;和(3)右连续性。

除了累积分布函数之外,还有其他常用的方式来刻画随机变量。

  • 分布列/概率质量函数$P(X=x)$:常常用于刻画离散的随机变量;
  • 概率密度函数$p(x)$:常常用于刻画连续的随机变量;
    两者均满足:(1)非负性;(2)正则性。

常见的一元随机变量

二项分布
  • 刻画$n$次伯努利试验中成功的次数。
  • 典型例子:抛硬币。
  • 记为 $b(n,p)$,其中,$n$表示试验次数,$p$表示单次伯努利试验成功的概率。
  • 分布列为
    $$
    P(X = k) = C_n^k p^{k} (1-p)^{n-k}, k=0,1,2,\cdots,n.
    $$
  • 特例:二点分布/伯努利分布$b(1,p)$。
负二项分布
  • 刻画在伯努利试验中第$r$次成功所需要的试验次数。
  • 记为$Nb(r,p)$,其中,$r$表示试验的成功次数,$p$表示单次伯努利试验成功的概率。
  • 分布列为
    $$
    P(X=k) = C_{k-1}^{r-1} p^{r} (1-p)^{k-r-1}
    $$
  • 特例:几何分布$Ge(p)= Nb(1,p)$。
  • 无记忆性:$P(X > m+n|X>m) = P(X>n)$。
泊松分布
  • 刻画一个单位内某事件发生的次数。
  • 记为$P(\lambda)$,其中,$\lambda>0$参数。
  • 分布列为
    $$
    P(X=k) =\frac{\lambda^{k}}{k!} \exp{-\lambda}.
    $$
  • 泊松分布可以看作二项分布的一种极限状况($n$趋于无穷)。
均匀分布
  • 刻画定义在区间$(a,b)$上等概率的取值。
  • 记为$U(a,b)$,其中,$a,b$是两个参数。
  • 密度函数为
    $$
    p(x) = \frac{1}{b-a} I(a< x< b).
    $$
正态分布
  • 刻画误差的分布。
  • 记为$N(\mu,\sigma^2)$,其中,$\mu\in R$和$\sigma^2>0$是两个参数。
  • 密度函数为
    $$
    p(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp{-(x-\mu)^2/(2\sigma^2)}, x\in R.
    $$
  • 特例:标准正态分布$N(0,1)$。
卡方分布
  • $n$个独立标准的平方和,即$\chi^2 = \sum_{i=1}^n Z_{i}^2$,其中$Z_i\overset{i.i.d}{\sim} N(0,1)$。
  • 记为$\chi^2 \sim \chi^2(n)$。
  • $\chi^{2}(n) = Ga(n/2,1/2)$。
$F$分布
  • 两个卡方分布的比值,即$F = \frac{\chi^2_1/m}{\chi^2_2/n}$,其中$\chi_1^2\sim \chi^2(m)$和$\chi_2^2\sim \chi^2(n)$且$\chi^2_1$和$\chi_2^2$独立。
  • 记为$F \sim F(m,n)$。
$t$分布
  • 一个标准正态分布与一个卡方分布的平方根的比值,即$t = \frac{Z}{\sqrt{\chi^2/n}}$,其中$Z\sim N(0,1)$和$\chi^2\sim \chi^2(n)$且$Z$和$\chi^2$独立。
  • 记为$t \sim t(n)$。
指数分布
  • 刻画寿命。
  • 记为$Exp(\lambda)$,其中,$\lambda>0$是参数。
  • 密度函数为
    $$
    p(x) = \lambda \exp{-\lambda x}, x>0.
    $$
  • 无记忆性。
Gamma 分布
  • Gamma函数 $\Gamma(\alpha) = \int_{0}^{\infty} x^{\alpha-1} \exp{-x} \text{d} x$。
  • Gamma函数的性质:
  1. $\Gamma(1) = 1$;
  2. $\Gamma(1/2) = \sqrt{\pi}$;
  3. $\Gamma(\alpha+1) = \alpha \Gamma(\alpha)$;
  4. $\Gamma(n+1) = n\Gamma(n) = n!$;
  • 记为$Ga(\alpha,\lambda)$, 其中,$\alpha>0$是形状参数,$\lambda>0$是尺度参数。
  • 密度函数为
    $$
    p(x) = \frac{\lambda^{\alpha}}{\Gamma(\alpha)} x^{\alpha-1} \exp{-\lambda x}, x>0
    $$
  • 特例:$Exp(\lambda) = Ga(1,\lambda)$。
Beta 分布
  • Beta函数 $B(a,b) = \int_{0}^1 x^{a-1} (1-x)^{b-1} \text{d}x, a,b>0$。
  • Beta函数的性质:
  1. $B(a,b) = B(b,a)$;
  2. $B(a,b) = \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}$
  • 记为$Be(a,b)$,其中,$a,b>0$是两个参数。
  • 密度函数为
    $$
    p(x) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} x^{a-1} (1-x)^{b-1}, 0<x<1.
    $$

随机向量

  • $\mathbf{X} = (X_1,X_2,\cdots,X_p)’$是基于同一个样本空间而定义的$p$维随机向量,其中每一维$X_i$是第$i$个随机变量。

  • 联合分布函数为
    $$
    F(x_1,x_2,\cdots,x_p) = P(X_1\leq x_1, X_2 \leq x_2,\cdots,X_p \leq x_p).
    $$

  • 联合分布列为$P(X_1 = x_1,X_2=x_2,\cdots,X_p = x_p).$

  • 联合分布列为$p(x_1,x_2,\cdots,x_p)$满足
    $$
    F(x_1,x_2,\cdots,x_p) = \int_{-\infty}^{x_1}\int_{-\infty}^{x_2}\cdots \int_{-\infty}^{x_p} p(t_1,t_2,\cdots,t_p) \text{d}t_p \cdots \text{d}x_2 \text{d}x_1.
    $$

  • 边际分布函数为$F_{X_i}(x_i) = P(X_i\leq x_i)$;

  • 边际分布列为$P(X_i = x_i)$;

  • 边际密度函数为$p(x_i)$;

  • 独立性满足

  1. $F(x_1,x_2,\cdots,x_p) = \prod_{i=1}^p F(x_i)$;
  2. $P(X_1 = x_1,X_2=x_2,\cdots,X_p = x_p) = \prod_{i=1}^p P(X_i = x_i)$;
  3. $p(x_1,x_2,\cdots,x_p) = \prod_{i=1}^p p(x_i)$。
  • $X$与$Y$独立,指的是$X$发生与否与$Y$发生与否是无关的。

随机变量的数字特征

期望
  • 衡量随机变量的平均水平。
  • 计算方式为
    $$
    E(X) = \begin{cases}
    \int_{-\infty}^{\infty} x p(x) \text{d}x, \text{$X$是连续随机变量}\
    \sum_{x_i} x_i P(X=x_i) , \text{$X$是离散随机变量}
    \end{cases}
    $$
  • 期望的性质:
  1. $E(aX) = aE(X)$,$a$是一个常数。
  2. $E(a) = a$,$a$是一个常数。
  3. $E(X+Y) = E(X) + E(Y)$。
  4. 若$X$和$Y$独立, 有$E(XY) = E(X)E(Y)$。
方差
  • 衡量随机变量的波动情况。
  • 计算方式为
    $$
    Var(X) = \begin{cases}
    \int_{-\infty}^{\infty} (x-E(X))^2 p(x) \text{d}x, \text{$X$是连续随机变量}\\
    \sum_{x_i} (x_i-E(X))^2 P(X=x_i) , \text{$X$是离散随机变量}
    \end{cases}
    $$
  • 方差的性质:
  1. $Var(X) = E(X^2) - (E(X))^2$.
  2. $Var(aX+b) = a^2E(X)$,$a$是一个常数。
  3. $Var(a) = 0$,$a$是一个常数。
  4. 切比雪夫不等式:$P(|X-E(X)|\geq \epsilon) \leq \frac{Var(X)}{\epsilon^2}$。
  5. 若$X$和$Y$独立,有$Var(X\pm Y) = Var(X) + Var(Y)$。
常见分布的期望与方差
常见分布 期望 方差
$b(n,p)$ $np$ $np(1-p)$
$Nb(r,p)$ $r/p$ $r(1-p)/p^2$
$P(\lambda)$ $\lambda$ $\lambda$
$U(a,b)$ $(a+b)/2$ $(b-a)^2/12$
$N(\mu,\sigma^2)$ $\mu$ $\sigma^2$
$Exp(\lambda)$ $1/\lambda$ $1/\lambda^2$
$Ga(\alpha,\lambda)$ $\alpha/\lambda$ $\alpha/\lambda^2$
$Be(a,b)$ $a/(a+b)$ $\frac{a(a+b)}{(a+b+1)^2(a+b+2)}$
协方差与相关系数
  • 协方差:$Cov(X,Y) = E(X-E(X))(Y-E(Y)) = E(XY)- E(X)E(Y)$;

  • 特例:$Cov(X,X) = Var(X)$;

  • 若$X$和$Y$独立,有$Cov(X,Y)=0$;

  • $Var(X\pm Y) = Var(X) + Var(Y) \pm 2 Cov(X,Y)$;

  • $Cov(X,Y) = Cov(Y,X)$;

  • $Cov(X,a) = 0$,$a$是一个常数;

  • $Cov(aX,bY) = ab Cov(X,Y) $,$a,b$是常数;

  • $Cov(X+Y,Z) = Cov(X,Z) + Cov(Y,Z)$。

  • 相关系数为
    $$
    Corr(X,Y) = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}.
    $$

  • $-1 \leq Corr(X,Y)\leq 1$;

  • 若$ Corr(X,Y)>0$,则$X$和$Y$是正(线性)相关;

  • 若$ Corr(X,Y)<0$,则$X$和$Y$是负(线性)相关;

  • 若$ Corr(X,Y)=0$,则$X$和$Y$是不相关;

分位数
  • $p$分位数定义为$x_p$满足$ p = \int_{-\infty}^{x_p} p(x) \text{d}x$。
常见分布的分位数
常见分布 分位数
$N(0,1)$ $z_{p}$
$\chi^2(n)$ $\chi^2_{p}(n)$
$t(n)$ $t_{p}(n)$
$F(m,n)$ $F_{p}(m,n)$

多元正态随机向量

  • $\mathbf{X} \sim N_{p}(\mathbf{\mu},\Sigma)$;
  • 均值向量$\mathbf{\mu} = (\mu_1,\mu_2,\cdots,\mu_p)’$,其中$\mu_{i} = E(X_i)$;
  • 方差-协方差矩阵为
    $$
    Cov = \left(
    \begin{matrix}
    Var(X_1) & Cov(X_1,X_2) & \cdots & Cov(X_1,X_p)\\
    Cov(X_2,X_1) & Var(X_2) & \cdots & Cov(X_2,X_p)\\
    \vdots & \vdots & & \vdots \\
    Cov(X_p,X_1) & Cov(X_p,X_2) & \cdots & Var(X_p)\\
    \end{matrix}
    \right)
    $$
  • 密度函数为
    $$
    p(\mathbf{x}) = (2\pi)^{-p/2} \det(\Sigma)^{-1/2} \exp{ -(\mathbf{x} - \mathbf{\mu})’ \Sigma^{-1} (\mathbf{x} - \mathbf{\mu})/2 }.
    $$

重要定理

若$x_1,x_2,\cdots,x_n$是来自于正态分布$N(\mu,\sigma^2)$的样本。我们可以证明

  1. 样本均值$\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i \sim N(\mu,\sigma^2/n)$.
  2. 样本方差$s^2 = \frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2$ 满足$(n-1)s^2/\sigma^2 \sim \chi^2(n-1)$.
  3. $\bar{x}$与$s^2$独立。

Part Two:Estimation

点估计 (Point Estimation)

  • 估计的三种思想:
  1. 替换
  2. 似然
  3. 拟合

最大似然估计

  • 似然函数<=>联合密度函数
    例:总体分布$X\sim N(\mu,\sigma^2)$。令参数$\theta = (\mu,\sigma^2)’$。现有$x_1,x_2,\cdots,x_n$是样本。欲估计$\theta$。
    我们可以定义似然函数为
    $$
    L(\theta) = \prod_{i=1}^n p(x_i) = (2\pi\sigma^2)^{-n/2} \exp{- \frac{1}{2\sigma^2} \sum_{i=1}^n(x_i - \mu)^2 } .
    $$
    其对数似然函数为
    $$
    l(\theta) = \ln L(\theta) = -\frac{n}{2}\ln(2\pi) -\frac{n}{2} \ln (\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n(x_i - \mu)^2.
    $$
    关于$\mu$和$\sigma^2$分别求偏导,即
    $$
    \frac{\partial l}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^n(x_i - \mu) = 0,
    $$

$$
\frac{\partial l}{\partial \sigma^2} = - \frac{n/2}{\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^n(x_i - \mu)^2= 0.
$$

于是,我们可以得到最大似然估计为
$$
\hat{\mu} = \bar{x}, \hat{\sigma}^2 = s_n^2 = \frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2.
$$

区间估计(Interval Estimation)

枢轴量法

例:现有$x_1,x_2,\cdots,x_n\sim N(\mu,\sigma^2)$。欲给出$\mu$置信水平为$1-\alpha$的置信区间。

  1. 如果$\sigma^2$已知,我们记$\sigma^2 =\sigma^2_0 $。
  • 点估计:$\hat{\mu} = \bar{x}$;
  • 分布:$\bar{x} \sim N(\mu,\sigma_0^2/n)$;
  • 标准化:$\frac{\hat{\mu}-\mu}{\sqrt{\sigma_0^2/n}} \sim N(0,1)$;这里$\frac{\hat{\mu}-\mu}{\sqrt{\sigma_0^2/n}}$就是所定义的枢轴量;
  • 可以确定c_1,c_2分别为$\pm z_{1-\alpha/2}$使得
    $$
    P(c_1\leq \frac{\hat{\mu}-\mu}{\sqrt{\sigma_0^2/n}}\leq c_2) = 1-\alpha
    $$
  • 关注这个区间${-z_{1-\alpha/2} \leq \frac{\bar{x}-\mu}{\sqrt{\sigma_0^2/n}}\leq z_{1-\alpha/2}}$可以转化为
    $$
    \bar{x} - z_{1-\alpha/2} \sqrt{\sigma_0^2/n}\leq \mu \leq \bar{x} +z_{1-\alpha/2} \sqrt{\sigma_0^2/n}.
    $$
    1. 如果$\sigma^2$未知,我们如何得到区间估计?
  • 点估计:$\hat{\mu} = \bar{x}$;
  • 分布:$\bar{x} \sim N(\mu,\sigma_0^2/n)$;
  • 标准化:$\frac{\hat{\mu}-\mu}{\sqrt{\sigma_0^2/n}} \sim N(0,1)$;
  • 因为$\sigma^2$未知,我们用$\hat{\sigma}^2$代替$\sigma^2$,即枢轴量为
    $$
    G = $\frac{\hat{\mu}-\mu}{\sqrt{\hat{\sigma}^2/n}} \sim t(n-1)$
    $$
  • 可以确定c_1,c_2分别为$\pm t_{1-\alpha/2}(n-1)$使得
    $$
    P(c_1\leq \frac{\hat{\mu}-\mu}{\sqrt{\sigma_0^2/n}}\leq c_2) = 1-\alpha
    $$
  • 关注这个区间${-t_{1-\alpha/2}(n-1)\leq \frac{\bar{x}-\mu}{\sqrt{\sigma_0^2/n}}\leq t_{1-\alpha/2}(n-1)}$可以转化为
    $$
    \bar{x} - t_{1-\alpha/2}(n-1) \sqrt{\sigma_0^2/n}\leq \mu \leq \bar{x} +t_{1-\alpha/2}(n-1) \sqrt{\sigma_0^2/n}.
    $$

Part Three:Hypothesis Testing

这里我们考虑正态总体分布的参数假设检验。

单个正态分布

背景问题:研究大厂的程序员的平均年龄是否不大于35岁?

例:$x_1,x_2,\cdots,x_n \sim N(\mu,\sigma^2)$。

  1. 如果$\sigma^2$已知。欲检验
    $$
    H_0: \mu = \mu_0 \quad \text{vs} \quad H_1: \mu> \mu_0.
    $$
    我们希望构造的拒绝域为$W = {\bar{x} > c}$。接下来,我们的核心问题是$c$是多少?考虑在原假设成立时,$P(\bar{x}>c|H_0) \leq \alpha$。当原假设成立时,
    $$
    \bar{x} \sim N(0,\sigma^2).
    $$
    那么这个概率
    $$
    \alpha\geq P(\bar{x}>c|H_0) = P(\bar{x}/\sqrt{\sigma^2/n}>c/\sqrt{\sigma^2/n}) = 1- \Phi(c/\sqrt{\sigma^2/n})
    $$
    于是,$c = z_{1-\alpha} \sqrt{\sigma^2/n}$。所以,拒绝域为$W = {\bar{x} > z_{1-\alpha} \sqrt{\sigma^2/n}} = {\bar{x}/\sqrt{\sigma^2/n} >z_{1-\alpha} }$。这里$\bar{x}/\sqrt{\sigma^2/n}$是检验统计量。
  2. 如果$\sigma^2$未知。欲检验
    $$
    H_0: \mu \leq \mu_0 \quad \text{vs} \quad H_1: \mu> \mu_0.
    $$
    检验统计量为$\bar{x}/\sqrt{\hat{\sigma}^2/n}$,其拒绝域为${\bar{x}/\sqrt{\hat{\sigma}^2/n} >t_{1-\alpha}(n-1) }$
  3. 如果$\sigma^2$未知。欲检验
    $$
    H_0: \mu = \mu_0 \quad \text{vs} \quad H_1: \mu \neq \mu_0.
    $$
    检验统计量为$\bar{x}/\sqrt{\hat{\sigma}^2/n}$,其拒绝域为${\left|\bar{x}/\sqrt{\hat{\sigma}^2/n}\right| >t_{1-\alpha/2}(n-1) }$
  • $p$值是当前样本及其更极端情况发生的概率。当$p<\alpha$,则拒绝原假设。

两个正态分布

例:有两个独立样本$x_1,x_2,\cdots,x_m \sim N(\mu_1,\sigma^2)$和$y_1,y_2,\cdots,y_n \sim N(\mu_2,\sigma^2)$。这里$\sigma^2$未知。
令$\theta = \mu_1- \mu2$。欲检验
$$
H_0: \theta = 0 \quad \text{vs} \quad H_1: \theta \neq 0.
$$
检验统计量为
$$
t = \frac{\bar{x} - \bar{y}}{\sqrt{s_w^2 (1/m+1/n)}} .
$$
其拒绝域为 ${|t| > t_{1-\alpha/2}(m+n-2)}$.

  • 假设检验与区间估计是相对应的。