离散型变量的概率分布可以用 概率质量函数(probability mass function, PMF)
1来描述。我们通常用大写字母 P 来表示概率质量函数。通常每一个随机变量都会有
一个不同的概率质量函数,并且读者必须根据随机变量来推断所使用的 PMF,而不
是根据函数的名称来推断;例如, P (x) 通常和 P (y) 不一样。
概率质量函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概
率。 x = x 的概率用 P (x) 来表示,概率为 1 表示 x = x 是确定的,概率为 0 表示
x = x 是不可能发生的。有时为了使得PMF的使用不相互混淆,我们会明确写出随
机变量的名称: P (x = x)。有时我们会先定义一个随机变量,然后用 ∼ 符号来说明
它遵循的分布: x ∼ P (x)。
概率质量函数可以同时作用于多个随机变量。这种多个变量的概率分布被称
为 联合概率分布(joint probability distribution)。 P (x = x; y = y) 表示 x = x 和
y = y 同时发生的概率。我们也可以简写为 P (x; y)。
如果一个函数 P 是随机变量 x 的 PMF,必须满足下面这几个条件:
• P 的定义域必须是 x 所有可能状态的集合。
• 8x 2 x; 0 ≤ P (x) ≤ 1: 不可能发生的事件概率为 0,并且不存在比这概率更低
的状态。类似的,能够确保一定发生的事件概率为 1,而且不存在比这概率更
高的状态。
• ∑x2x P (x) = 1: 我们把这条性质称之为 归一化的(normalized)。如果没有这
条性质,当我们计算很多事件其中之一发生的概率时可能会得到大于 1 的概
率。
例如,考虑一个离散型随机变量 x 有 k 个不同的状态。我们可以假设 x 是 均匀
分布(uniform distribution)的(也就是将它的每个状态视为等可能的),通过将它
的PMF设为
P (x = xi) = 1
k (3.1)
对于所有的 i 都成立。我们可以看出这满足上述成为概率质量函数的条件。因为 k
是一个正整数,所以 k1 是正的。我们也可以看出
∑ i
P (x = xi) = ∑
i
1 k
=
k k
= 1; (3.2)
因此分布也满足归一化条件。








暂无数据