随机变量及其分布
Definitions, Theorems, and Properties
- 随机变量 (Random Variable) (Def
2.1.1
): 表示为X, Y, Z
等大写字母或 $ \xi, \eta, \zeta $ 等希腊字母, 取值记为x, y, z
等对应小写字母;- 离散 (Discrete): 仅可能取有限个, 可列个或可数个值的随机变量称为离散随机变量
- 连续 (Continuous): 其可能取值充满数轴上的某一个区间
(a, b)
, 其中 $ a 可取 -\infty $, $ b 可取 +\infty $;
- 概率的描述
- 概率分布 (Probability Distribution) (Def
2.1.3
): 又称为分布律或分布列 (Distribution Law), 指某离散随机变量所有可能取值对应的概率;- Prop
2.1.1
: 满足 非负性 (Non-negativity) 与 正则性 (Regularity);
- Prop
- 概率密度 (Probability Density) (Def
2.1.4
): 又称为密度函数 (Density Function), 指某连续随机变量可能取值与对应变量的关系函数;- Prop
2.1.2
: 满足 非负性 (Non-negativity) 与 正则性 (Regularity);
- Prop
- 概率分布 (Probability Distribution) (Def
分布函数 (Distribution Function) (Def
2.1.2
): 设 $ \xi $ 为一个随机变量, 对任意实数x
, 称为随机变量 $ \xi $ 的分布函数, 且称 $ \xi $ 服从于 $ F_\xi(x) $, 记为 $ \xi \sim F_\xi(x) $, 此处
F(x)
以 $ \xi $ 为下标表示其为关于随机变量 $ \xi $ 的分布函数;Thr
2.1.1
单调性(Monotonicity)与有界性(Boundedness):
右连续性(Right-continuity): $ F(x_0 + 0) = F(x_0) $;
- 数学期望 (Mathematic Expectation): 试验中每次可能结果的概率乘以其结果的总和, 是最基本的数学特征之一, 它反映随机变量平均取值的大小, 可以理解为随机变量所有取值的加权平均, 此处的
权
即为概率分布或概率密度, 其物理意义为重心
;- Prop
2.2.1
: $ E(c) = c $; - Prop
2.2.2
: $ E(a\xi) = a E(\xi) $; - Prop
2.2.3
: $ E(g(\xi) \pm h(\xi)) = E(g(\xi)) \pm E(h(\xi)) $;
- Prop
方差 (Variance): 衡量随机变量或一组数据时离散程度的度量, 用于描述随机变量的不集中程度, 其定义为
而 标准差 (Standard Variance) $ \sigma(\xi) = \sqrt{Var(\xi)} $ 则是其算术平方根;
- Prop
2.3.1
: $ Var(\xi) = E(\xi^2) - E^2(\xi) $ (展开式); - Prop
2.3.2
: $ Var(c) = 0 $; - Prop
2.3.3
: $ Var(a\xi+b) = a^2 Var(\xi) $; Chebyshev’s Inequation (Thr
2.3.1
) 1: 设随机变量 $ \xi $ 的期望与方差皆存在, 则 $ \forall \epsilon > 0 $,对于连续随机变量我们简单求证如下: (设 $ \mu = E(\xi) $)
Thr
2.3.2
: 如若随机变量 $ \xi $ 的方差存在, 则即 $ \xi $ 几乎处处为某个常数
a
;
- Prop
离散随机变量的函数也是离散随机变量, 对于原离散随机变量 $ \xi $ 的取值中任意的 $ x_k $, 便是 $ g(x_k) $ 对应的概率为原本的 $ \Pr\{\xi = x_k\} $, 但要注意不同 $ g(x_k) $ 值相等时对应概率会合并, 然而连续随机变量的函数不一定为连续随机变量, 因此我们分情况讨论连续随机变量的函数:
- 当 $ \eta = g(\xi) $ 为离散随机变量时, 我们只能将 $ \eta = g(\xi) $ 的取值逐个列出, 把 $ \eta $ 取各种可能值的对应概率求和即可;
当 $ g(x) $ 为严格单调函数时, 我们有以下定理:
Thr
2.6.1
: 设 $ \xi $ 为连续随机变量, 其密度函数为 $ p_\xi(x) $, $ \eta = g(\xi) $ 为另一个连续随机变量, 如若 $ y = g(x) $ 严格单调且其反函数 $ g^{-1}(x) $ 具有连续导函数, 则其密度函数为where $ a = \min\{g(-\infty), g(+\infty)\}, b = \max\{g(-\infty), g(+\infty)\} $,
其实这个定理我们非常好理解, 以g(x)
为严格单调递增函数的情况为例我们有:然后对
y
求导即可得证;- Thr
2.6.2
: 设随机变量 $ \xi $ 服从常态分布 $ N(\mu, \sigma^2) $ 则当 $ a \ne 0 $ 时有 $ a\xi+b \sim N(a\mu+b, a^2\sigma^2) $;
- 对于其他形式, 我们将直接由 $ \eta $ 的分布函数 $ F_\eta(y) = \Pr\{ \eta = g(\xi) \le y \} $ 出发, 根据函数 $ g(x) $ 的特点作个案处理;
Thr
2.6.5
: 如若随机变量 $ \xi $ 的分布函数 $ F_\xi(x) $ 为严格单调递增的连续函数, 其反函数 $ F_\xi^{-1}(y) $ 存在, 则 $ \eta = F_\xi(\xi) \sim U(0, 1) $, 这是因为当 $ 0 \le y < 1 $ 时,而 $ \eta = F_\xi(\xi) \in [0, 1] $, 因此 $ y < 0 $ 时 $ \{\eta \le y\} $ 与 $ y \ge 1 $ 时 $ \{\eta \le y\} $ 分别为
不可能事件
与必然事件
, 从而命题得证;
Other Characteristics of Distributions
k
阶矩 (Moment-k
) (Def2.7.1
): 设 $ \xi $ 为随机变量, $ k \in \mathbb{Z^+} $, 如若以下的数学期望皆存在, 则称为 $ \xi $ 的
k
阶 原点矩 (Origin Moment), 称为 $ \xi $ 的
k
阶 中心矩 (Central Moment), 且我们不难发现以下关系:同时我们可以发现, 一阶原点矩即为数学期望, 二阶中心矩即为方差;
变异系数 (Coefficient of Variation) (Def
2.7.2
): 设随机变量 $ \xi $ 的二阶矩存在, 则称比值为 $ \xi $ 的变异系数;
偏度系数 (Skewness) (Def
2.7.5
): 设随机变量 $ \xi $ 的前三阶矩皆存在, 则比值称为分布的偏度系数, 简称偏度,
- 当 $ \beta_s > 0 $ 时称其为正偏或右偏,
当 $ \beta_s < 0 $ 时称其为负偏或左偏,
这是描述分布偏离对称性程度的一个特征数;
峰度系数 (Kurtosis) (Def
2.7.6
): 设随机变量 $ \xi $ 的前四阶矩皆存在, 则比值称为分布的峰度系数, 简称峰度, 这是描述分布尖峭程度或尾部粗细的一个特征数, 可以视为其相对于常态分布的超出量;
- 偏度与峰度皆为描述分布形状的特征数;
Discrete Distributions
Binomial
如若记m
重Bernoulli试验中成功(记为事件A
)的次数, 则 $ \xi $ 的额可能取值为0, 1, ..., m
.
记p
为每次试验中A
发生的概率, 即 $ \Pr(A) = p $, 则 $ \Pr(\overline{A}) = 1 - p $.
由于m
重Bernoulli试验的基本结果可以记作
其中 $ \omega_k \in \{ A, \overline{A} \} $ 共有 $ 2^m $ 个, 这些样本点 $ \omega $ 共同组成了样本空间 $ \Omega $.
于此我们引入 二项分布 (Binomial Distribution), 如若 $ \xi $ 服从以n
, p
为参数的二项分布, 则记为
其中, n
为Bernoulli试验的次数, p
为每次Bernoulli试验成功的概率, 其分布律为
Instances:
- 检查10件产品, 10件产品中不合格品的个数 $ \xi \sim b(10, p) $, 其中
p
为不合格品率; - 调查50个人, 其中患有色盲的人数 $ \eta \sim b(50, p) $, 其中
p
为色盲率; - 设计5次, 5次中命中次数 $ \zeta \sim b(5, p) $, 其中
p
为命中率;
特别地, 当n=1
即进行且进行一次Bernoulli试验时的二项分布b(1, p)
被称为二点分布, 0-1分布, 或Bernoulli分布;
Poisson
Poisson分布于1837年由法国数学学者Poisson2首次提出, 其概率分布律为
where $ k = 0, 1, 2, \cdots $,
其中参数 $ \lambda > 0 $, 记为 $ \xi \sim P(\lambda) $,
Instances:
- 在一天内, 某商场到场的顾客数目;
- 在单位时间内, 一电路受到外界电磁波的冲击次数;
- 1平方米内, 玻璃上的气泡数;
- etc.
Approximation of Binomial
Thr 2.4.1
(Possion Theorem): 在m
重Bernoulli试验中, 记事件A
在一次试验中发生的概率为 $ p_m $ (这样的p
与试验次数m
有关), 如若
这个极限存在, 则
计算二项分布 $ b(m, p) $ 时, 如若m
很大, p
很小, 而乘积 $ \lambda = mp $ 适中, 则可以用Poisson分布进行近似, 即
Hyper-geometric
设有N
件产品, 其中有M
件次品, 现在不放回地随机抽选n
件, 则其中次品件数 $ \xi $ 服从 超几何分布 (Hyper-geometric Distribution), 记作 $ \xi \sim h(n, N, M) $, 其概率分布律如下:
其中 $ r = \min\{M, n\} $,
且 $ M \le N, n \le N $,
$ n, N, M \in \mathbb{Z^+} $;
Approximation of Hyper-geometric
当 $ n \ll N $ 时, 不合格品率 $ p = \frac{M}N $ 改变甚微, 此时有
where $ p = \frac{M}N $;
Continuous Distributions
Normal
Normal Distribution (常态分布, Gauss分布), which is proposed by Gauss, its Density Function is:
It can be written as
Normalization
If a Variable satisfies that
we set $ V = \frac{\xi - \mu}\sigma $, then we have
where $ N(0, 1) $ is called Standard Normal Distribution, whose Density Function is:
Uniform
Density Function:
which can be written as
Exponential
Density Function:
which can be written as
Instances
Exercise
2.1,T7
: 一批产品共有100件, 其中10件事不合格品.
根据验收规则, 从中任取5件产品进行质量检验, 假若5件中无不合格品, 则这批产品被接收, 否则就要重新对这批产品逐个检验.- 试求5件中不合格品数 $ \xi $ 的分布律;
需要对这批产品进行逐个检验的概率为多少?
解: 根据题意, 不合格品数 $ \xi \sim H(5, 100, 10) $, 根据超几何分布的定义,
where $ \xi = 0, 1, \cdots, 5 $;
需要对这批产品进行逐个检验即为5件全为合格品的对立事件, 因此所求概率
Exercise
2.6,T11(3)
: 设随机变量 $ \xi $ 的概率密度为求随机变量 $ \eta = \xi^2 $ 的分布.
解: 根据题意得到 $ \xi $ 的分布函数
Others
Table I.
Common Formula Correspondence between Discrete and Continuous
Discrete | Continuous | |
---|---|---|
Non-negativity | $ \forall k, p_\xi(x_k) \ge 0 $ | $ \forall x, p_\xi(x) \ge 0 $ |
Regularity | $ \sum_k {p_\xi(x_k)} = 1 $ | $ \int_{-\infty}^{+\infty} {p_\xi(x)} \mathrm{d}x = 1 $ |
Distribution | $ F(x) = \sum_{x_k \le x} {p_\xi(x_k)} $ | $ \int_{-\infty}^x {p_\xi(\tau)} \mathrm{d}\tau $ |
Expectation | $ E(\xi) = \sum_k {x_k p_\xi(x_k)} $ (Def 2.2.1 ) |
$ E(\xi) = \int_{-\infty}^{+\infty} {x p_\xi(x)} \mathrm{d}x $ (Def 2.2.2 ) |
Thr 2.2.1 |
$ E[g(\xi)] = \sum_k {g(x_k) p_\xi(x_k)} $ | $ E[g(\xi)] = \int_{-\infty}^{+\infty} {g(x) p_\xi(x)} \mathrm{d}x $ |
Def 2.3.1 |
$ Var(\xi) = \sum_k {(x_k - E(\xi)) p_\xi(x_k)} $ | $ Var(\xi) = \int_{-\infty}^{+\infty} {(x - E(\xi)) p_\xi(x)} \mathrm{d}x $ |
Table II.
Common Distributions
Distribution | Mean | Variance | Skewness | Kurtosis |
---|---|---|---|---|
$ U(a, b) $ | $ (a + b) / 2 $ | $ (b - a)^2 / 12 $ | 0 | -1.2 |
$ N(\mu, \sigma^2) $ | $ \mu $ | $ \sigma^2 $ | 0 | 0 |
$ Exp(\lambda) $ | $ \lambda^{-1} $ | $ \lambda^{-2} $ | 2 | 6 |
$ b(n, p) $ | $ np $ | $ np(1-p) $ | ||
$ P(\lambda) $ | $ \lambda $ | $ \lambda $ | ||
$ h(n, N, M) $ | $ n\frac{M}N $ | $ \frac{nM(N-M)(N-n)}{N^2(N-1)} $ |
References
1. Пафну́тий Льво́вич Чебышёв, 1821-1894; ↩
2. Simeon-Denis Poisson, 1781-1840; ↩