概率统计 II 随机变量及其分布

Author: sandyzikun

随机变量及其分布

Definitions, Theorems, and Properties

  1. 随机变量 (Random Variable) (Def 2.1.1): 表示为 X, Y, Z 等大写字母或 $ \xi, \eta, \zeta $ 等希腊字母, 取值记为 x, y, z 等对应小写字母;
    • 离散 (Discrete): 仅可能取有限个, 可列个或可数个值的随机变量称为离散随机变量
    • 连续 (Continuous): 其可能取值充满数轴上的某一个区间(a, b), 其中 $ a 可取 -\infty $, $ b 可取 +\infty $;
  2. 概率的描述
    • 概率分布 (Probability Distribution) (Def 2.1.3): 又称为分布律或分布列 (Distribution Law), 指某离散随机变量所有可能取值对应的概率;
      • Prop 2.1.1: 满足 非负性 (Non-negativity)正则性 (Regularity);
    • 概率密度 (Probability Density) (Def 2.1.4): 又称为密度函数 (Density Function), 指某连续随机变量可能取值与对应变量的关系函数;
      • Prop 2.1.2: 满足 非负性 (Non-negativity)正则性 (Regularity);
  3. 分布函数 (Distribution Function) (Def 2.1.2): 设 $ \xi $ 为一个随机变量, 对任意实数x, 称

    为随机变量 $ \xi $ 的分布函数, 且称 $ \xi $ 服从于 $ F_\xi(x) $, 记为 $ \xi \sim F_\xi(x) $, 此处F(x)以 $ \xi $ 为下标表示其为关于随机变量 $ \xi $ 的分布函数;

    • Thr 2.1.1

      1. 单调性(Monotonicity)有界性(Boundedness):

      2. 右连续性(Right-continuity): $ F(x_0 + 0) = F(x_0) $;

  4. 数学期望 (Mathematic Expectation): 试验中每次可能结果的概率乘以其结果的总和, 是最基本的数学特征之一, 它反映随机变量平均取值的大小, 可以理解为随机变量所有取值的加权平均, 此处的即为概率分布或概率密度, 其物理意义为重心;
    • Prop 2.2.1: $ E(c) = c $;
    • Prop 2.2.2: $ E(a\xi) = a E(\xi) $;
    • Prop 2.2.3: $ E(g(\xi) \pm h(\xi)) = E(g(\xi)) \pm E(h(\xi)) $;
  5. 方差 (Variance): 衡量随机变量或一组数据时离散程度的度量, 用于描述随机变量的不集中程度, 其定义为

    标准差 (Standard Variance) $ \sigma(\xi) = \sqrt{Var(\xi)} $ 则是其算术平方根;

    • Prop 2.3.1: $ Var(\xi) = E(\xi^2) - E^2(\xi) $ (展开式);
    • Prop 2.3.2: $ Var(c) = 0 $;
    • Prop 2.3.3: $ Var(a\xi+b) = a^2 Var(\xi) $;
    • Chebyshev’s Inequation (Thr 2.3.1) 1: 设随机变量 $ \xi $ 的期望与方差皆存在, 则 $ \forall \epsilon > 0 $,

      对于连续随机变量我们简单求证如下: (设 $ \mu = E(\xi) $)

    • Thr 2.3.2: 如若随机变量 $ \xi $ 的方差存在, 则

      即 $ \xi $ 几乎处处为某个常数a;

  6. 离散随机变量的函数也是离散随机变量, 对于原离散随机变量 $ \xi $ 的取值中任意的 $ x_k $, 便是 $ g(x_k) $ 对应的概率为原本的 $ \Pr\{\xi = x_k\} $, 但要注意不同 $ g(x_k) $ 值相等时对应概率会合并, 然而连续随机变量的函数不一定为连续随机变量, 因此我们分情况讨论连续随机变量的函数:

    1. 当 $ \eta = g(\xi) $ 为离散随机变量时, 我们只能将 $ \eta = g(\xi) $ 的取值逐个列出, 把 $ \eta $ 取各种可能值的对应概率求和即可;
    2. 当 $ g(x) $ 为严格单调函数时, 我们有以下定理:

      • Thr 2.6.1: 设 $ \xi $ 为连续随机变量, 其密度函数为 $ p_\xi(x) $, $ \eta = g(\xi) $ 为另一个连续随机变量, 如若 $ y = g(x) $ 严格单调且其反函数 $ g^{-1}(x) $ 具有连续导函数, 则其密度函数为

        where $ a = \min\{g(-\infty), g(+\infty)\}, b = \max\{g(-\infty), g(+\infty)\} $,
        其实这个定理我们非常好理解, 以g(x)为严格单调递增函数的情况为例我们有:

        然后对y求导即可得证;

      • Thr 2.6.2: 设随机变量 $ \xi $ 服从常态分布 $ N(\mu, \sigma^2) $ 则当 $ a \ne 0 $ 时有 $ a\xi+b \sim N(a\mu+b, a^2\sigma^2) $;
    3. 对于其他形式, 我们将直接由 $ \eta $ 的分布函数 $ F_\eta(y) = \Pr\{ \eta = g(\xi) \le y \} $ 出发, 根据函数 $ g(x) $ 的特点作个案处理;
    • Thr 2.6.5: 如若随机变量 $ \xi $ 的分布函数 $ F_\xi(x) $ 为严格单调递增的连续函数, 其反函数 $ F_\xi^{-1}(y) $ 存在, 则 $ \eta = F_\xi(\xi) \sim U(0, 1) $, 这是因为当 $ 0 \le y < 1 $ 时,

      而 $ \eta = F_\xi(\xi) \in [0, 1] $, 因此 $ y < 0 $ 时 $ \{\eta \le y\} $ 与 $ y \ge 1 $ 时 $ \{\eta \le y\} $ 分别为不可能事件必然事件, 从而命题得证;

  7. Other Characteristics of Distributions

    1. k阶矩 (Moment-k) (Def 2.7.1): 设 $ \xi $ 为随机变量, $ k \in \mathbb{Z^+} $, 如若以下的数学期望皆存在, 则称

      为 $ \xi $ 的k原点矩 (Origin Moment), 称

      为 $ \xi $ 的k中心矩 (Central Moment), 且我们不难发现以下关系:

      同时我们可以发现, 一阶原点矩即为数学期望, 二阶中心矩即为方差;

    2. 变异系数 (Coefficient of Variation) (Def 2.7.2): 设随机变量 $ \xi $ 的二阶矩存在, 则称比值

      为 $ \xi $ 的变异系数;

    3. 偏度系数 (Skewness) (Def 2.7.5): 设随机变量 $ \xi $ 的前三阶矩皆存在, 则比值

      称为分布的偏度系数, 简称偏度,

      • 当 $ \beta_s > 0 $ 时称其为正偏右偏,
      • 当 $ \beta_s < 0 $ 时称其为负偏左偏,

        这是描述分布偏离对称性程度的一个特征数;

    4. 峰度系数 (Kurtosis) (Def 2.7.6): 设随机变量 $ \xi $ 的前四阶矩皆存在, 则比值

      称为分布的峰度系数, 简称峰度, 这是描述分布尖峭程度或尾部粗细的一个特征数, 可以视为其相对于常态分布的超出量;

    5. 偏度与峰度皆为描述分布形状的特征数;

Discrete Distributions

Binomial

如若记m重Bernoulli试验中成功(记为事件A)的次数, 则 $ \xi $ 的额可能取值为0, 1, ..., m.
p为每次试验中A发生的概率, 即 $ \Pr(A) = p $, 则 $ \Pr(\overline{A}) = 1 - p $.
由于m重Bernoulli试验的基本结果可以记作

其中 $ \omega_k \in \{ A, \overline{A} \} $ 共有 $ 2^m $ 个, 这些样本点 $ \omega $ 共同组成了样本空间 $ \Omega $.

于此我们引入 二项分布 (Binomial Distribution), 如若 $ \xi $ 服从以n, p为参数的二项分布, 则记为

其中, n为Bernoulli试验的次数, p为每次Bernoulli试验成功的概率, 其分布律为

Instances:

  • 检查10件产品, 10件产品中不合格品的个数 $ \xi \sim b(10, p) $, 其中p为不合格品率;
  • 调查50个人, 其中患有色盲的人数 $ \eta \sim b(50, p) $, 其中p为色盲率;
  • 设计5次, 5次中命中次数 $ \zeta \sim b(5, p) $, 其中p为命中率;

特别地, 当n=1即进行且进行一次Bernoulli试验时的二项分布b(1, p)被称为二点分布, 0-1分布, 或Bernoulli分布;

Poisson

Poisson分布于1837年由法国数学学者Poisson2首次提出, 其概率分布律为

where $ k = 0, 1, 2, \cdots $,

其中参数 $ \lambda > 0 $, 记为 $ \xi \sim P(\lambda) $,

Instances:

  • 在一天内, 某商场到场的顾客数目;
  • 在单位时间内, 一电路受到外界电磁波的冲击次数;
  • 1平方米内, 玻璃上的气泡数;
  • etc.

Approximation of Binomial

Thr 2.4.1 (Possion Theorem): 在m重Bernoulli试验中, 记事件A在一次试验中发生的概率为 $ p_m $ (这样的p与试验次数m有关), 如若

这个极限存在, 则

计算二项分布 $ b(m, p) $ 时, 如若m很大, p很小, 而乘积 $ \lambda = mp $ 适中, 则可以用Poisson分布进行近似, 即

Hyper-geometric

设有N件产品, 其中有M件次品, 现在不放回地随机抽选n件, 则其中次品件数 $ \xi $ 服从 超几何分布 (Hyper-geometric Distribution), 记作 $ \xi \sim h(n, N, M) $, 其概率分布律如下:

其中 $ r = \min\{M, n\} $,

且 $ M \le N, n \le N $,

$ n, N, M \in \mathbb{Z^+} $;

Approximation of Hyper-geometric

当 $ n \ll N $ 时, 不合格品率 $ p = \frac{M}N $ 改变甚微, 此时有

where $ p = \frac{M}N $;

Continuous Distributions

Normal

Normal Distribution (常态分布, Gauss分布), which is proposed by Gauss, its Density Function is:

It can be written as

Normalization

If a Variable satisfies that

we set $ V = \frac{\xi - \mu}\sigma $, then we have

where $ N(0, 1) $ is called Standard Normal Distribution, whose Density Function is:

Uniform

Density Function:

which can be written as

Exponential

Density Function:

which can be written as

Instances

  1. Exercise 2.1,T7: 一批产品共有100件, 其中10件事不合格品.
    根据验收规则, 从中任取5件产品进行质量检验, 假若5件中无不合格品, 则这批产品被接收, 否则就要重新对这批产品逐个检验.

    1. 试求5件中不合格品数 $ \xi $ 的分布律;
    2. 需要对这批产品进行逐个检验的概率为多少?

      解: 根据题意, 不合格品数 $ \xi \sim H(5, 100, 10) $, 根据超几何分布的定义,

      where $ \xi = 0, 1, \cdots, 5 $;
      需要对这批产品进行逐个检验即为5件全为合格品的对立事件, 因此所求概率

  2. Exercise 2.6,T11(3): 设随机变量 $ \xi $ 的概率密度为

    求随机变量 $ \eta = \xi^2 $ 的分布.

    解: 根据题意得到 $ \xi $ 的分布函数

Others

Table I. Common Formula Correspondence between Discrete and Continuous

Discrete Continuous
Non-negativity $ \forall k, p_\xi(x_k) \ge 0 $ $ \forall x, p_\xi(x) \ge 0 $
Regularity $ \sum_k {p_\xi(x_k)} = 1 $ $ \int_{-\infty}^{+\infty} {p_\xi(x)} \mathrm{d}x = 1 $
Distribution $ F(x) = \sum_{x_k \le x} {p_\xi(x_k)} $ $ \int_{-\infty}^x {p_\xi(\tau)} \mathrm{d}\tau $
Expectation $ E(\xi) = \sum_k {x_k p_\xi(x_k)} $
(Def 2.2.1)
$ E(\xi) = \int_{-\infty}^{+\infty} {x p_\xi(x)} \mathrm{d}x $
(Def 2.2.2)
Thr 2.2.1 $ E[g(\xi)] = \sum_k {g(x_k) p_\xi(x_k)} $ $ E[g(\xi)] = \int_{-\infty}^{+\infty} {g(x) p_\xi(x)} \mathrm{d}x $
Def 2.3.1 $ Var(\xi) = \sum_k {(x_k - E(\xi)) p_\xi(x_k)} $ $ Var(\xi) = \int_{-\infty}^{+\infty} {(x - E(\xi)) p_\xi(x)} \mathrm{d}x $

Table II. Common Distributions

Distribution Mean Variance Skewness Kurtosis
$ U(a, b) $ $ (a + b) / 2 $ $ (b - a)^2 / 12 $ 0 -1.2
$ N(\mu, \sigma^2) $ $ \mu $ $ \sigma^2 $ 0 0
$ Exp(\lambda) $ $ \lambda^{-1} $ $ \lambda^{-2} $ 2 6
$ b(n, p) $ $ np $ $ np(1-p) $
$ P(\lambda) $ $ \lambda $ $ \lambda $
$ h(n, N, M) $ $ n\frac{M}N $ $ \frac{nM(N-M)(N-n)}{N^2(N-1)} $

References

1. Пафну́тий Льво́вич Чебышёв, 1821-1894;
2. Simeon-Denis Poisson, 1781-1840;