概率论

概率论
事件、样本空间、随机变量
样本空间完全由事件构成。
随机变量是对样本空间的某种数学描述,具体地说:随机变量可以被视为一个函数(映射),将样本空间映射到实数集
随机变量的描述: PDF、CDF、PMF
分布函数(累积分布函数, Cumulative Distribution Function, CDF)
用F(x)表示随机变量X的分布函数, 定义:
The CDF
“accumulates” probability “up to” the value x. CDF的函数值是”X从
到 的所有(可取得的)值对应概率之和”.
注意:一切随机变量都有CDF.
“函数
广义单调递增(单调非减)
CDF的性质有:
- X是离散型随机变量时,CDF是阶梯函数.
- X是连续随机变量时,CDF是连续函数.
Note: CDF是连续函数
随机变量是连续型随机变量
- 当X是离散随机变量并取整数值时,分布函数和PMF可以用求和(
)或差分( )互求.
密度函数(概率密度函数, Probability Density Function, PDF)
存在性:有的随机变量不具有CDF(也可能在某些点处不具有PDF).
定义:PDF是CDF对随机变量的导数,即:
分布列(概率质量函数, Probability Mass Function, PMF)
连续性随机变量的PDF与离散型随机变量的PMF具有同等地位.
离散型随机变量的PMF常用
实际使用中,一般写作下面的形式:
也可以表示为:
第一种写法将分布列表示为函数(PMF).
第二种写法更直观,随机变量被放在了主要位置.更有”分布列”的感觉,不强调分布列的”函数”性.缺点:没有给出PMF的符号
.
PMF/PDF 的性质
- 非负性:
- 归一性:
*Note:*由于PMF和PDF地位相同,后续的公式或推导可能只给出其一.
PMF/PDF与CDF 的关系
多维随机变量
随机变量的特征:期望、效用、方差、熵
期望
期望的定义
随机变量
定义:
- 求和符号与积分符号表示”取遍
的所有可能值”. - 当
或 时,称 的期望值有确切定义.
- 两式分别对应离散型和连续型的随机变量.
当
另外,当PDF或PMF具有轴对称性时,对称轴即为期望.(此时可能仍然没有期望的”确切定义”)
条件期望
全期望定理
期望法则
重期望法则
条件期望的期望等于无条件期望.
效用, utility
引入:圣彼得堡悖论
掷一枚均匀的硬币,直到出现反面向上为止.假定每次抛掷是独立的.若你抛掷了
这是圣彼得堡悖论的问题.最简单的想法是:付钱的数额小于收益的期望值时,我们会获得利润.因此,首先计算期望.
设得到的钱数为随机变量
悖论就在这里:在类似的情境中,大部分人的选择与上述计算不符,他们不会选择付那么多的钱.
不难发现:玩家只有极小的概率获得大量的钱,有很大的可能只会获得少量的钱.这可能是人们不愿付很多钱玩这个游戏的原因.
这说明,人直观的选择(或者说”做出选择的习惯”)并非依据数学期望.为解释经济学中的这种现象,提出了效用的概念以替代数学期望,并假定:人通过效用决定自己的消费或投资.
**效用(utility)**这一概念是对”消费或投资的满意度”的抽象.借助上面的例子就是,玩家通过自己在游戏中获得的钱的效用的期望来决定自己付多少钱玩这个游戏.
在之前的说明中,我们实际上假定”玩家通过自己在游戏中获得的钱的期望来决定自己付多少钱”.
用”收益(钱)的效用”来替代”收益(钱)“本身.
边际效用递减法则
效用与”收益”仍然高度相关,几乎只有一个区别:效用在收益的基础上考虑了边际效用的递减.
经济学和心理学上,边际效用递减法则包含两个角度:生产者和消费者.
- 生产者.企业通过生产产品获得收益,随着生产产品的数量逐渐增多,生产单位产品所获取的利润逐渐减少. 也就是说,“总收益-总产品”图像的曲线是凸函数(二阶导数为负).
- 消费者.反复受到相同刺激(消费属于刺激的一种)时,刺激带来的满足感(效用)随刺激次数的增加而逐渐减少.也可以说,效用
与收益 满足: 充分大时 ,且 值越大( 接近”边际”时),二者差值越大.用数学语言描述就是:“效用-收益”函数的二阶导数为负.
例如,A获得了100元,B获得了10000元,“A获得100元的满足感”大于”B获得(10000元中的)100元的的满足感”.
消费者的边际效用递减法则与心理学相关,生产者的边际效用递减法则与经济学相关.
对特殊人群或特殊情况,边际效用递减法则可能不成立(或边际效用递减不明显).
效用函数
此处考虑的效用函数是对于消费者而言的效用.
效用函数刻画效用与收益之间的关系,即”效用-收益”函数,暂记作
由边际效用递减法则得出
是递增函数 充分大时
不同决策者对效用的看法不同,因此没有适用于所有人的效用函数.
实用中一般取
圣彼得堡悖论的解决
不再采用期望作为付钱的标准,转而使用效用的期望.
设得到的钱数为随机变量
第n次出现正面的概率是
玩家赢得的金额是
赢得金额的效用是
期望效用计算如下;
此模型下得到的结果是收敛的,更符合实际情况.
方差, variance
方差与标准差的定义
方差和标准差(standard deviation)都可衡量随机变量的分散程度(或者说”不确定的程度”、“不稳定程度”),它们的值越大,说明随机变量的值越分散(不确定性更大、不稳定).
随机变量
可通过计算
方差的计算不使用定义式(先得到
标准差(standard deviation)
标准差的好处在于,它与
条件方差
方差的性质
标准差和方差都是非负的.
全方差法则
矩, moment
n阶矩
对于PDF为
取不同实数,得到不同的矩.似乎只能取0或 .
当
原点矩性质:
- 一阶原点矩即为期望
中心矩性质:
- 中心矩为
次齐次函数: - 一阶中心矩恒为零
- 二阶中心矩即为方差
计算:
利用
这样就不必求
标准矩, standard moment
标准矩记作
为标准差, 为第 阶中心矩, 为期望(一阶原点矩)
标准矩是标准化后的中心矩,标准化即指将中心矩除以标准差.这样做使得标准矩对缩放和离散程度节能保持一致.
性质:
- 标准矩具有缩放不变性
- 标准矩是无量纲量
- 1阶标准矩恒为0 (因为中心矩是0)
- 2阶标准矩恒为1 (因为中心矩等于方差)
因为最后两条性质,实用的标准矩在3阶及以上.
某些矩的别名和恒等于的值
矩的阶数 | 原点矩 | 中心矩 | 标准矩 |
---|---|---|---|
1 | 期望 | =0 | =0 |
2 | 均方值 | 方差,variance | =1 |
3 | - | - | 偏度,skewness |
4 | - | - | 峭度,kurtosis |
矩母函数
熵, entropy
这里提到的熵均指”信息熵(information entropy)”.
本节中,所有对数都是以2为底的对数.
熵用于刻画随机变量的”不确定性”或”无序性”.
In information theory, the entropy of a random variable is the average level of “information”, “surprise”, or “uncertainty” inherent in the variable’s possible outcomes.
一个随机变量的熵是指该变量可能的结果所蕴含的不确定性的平均水平.
- 熵的基本定义:
设
熵的单位与定义熵时采用的底数有关,当以2为底数时,单位为bit.
本节的
既可以表示”随机变量 可取的值 “,又可以表示”事件 “. 注意到
.直观地看,当 的值趋于确定值的时候( 趋于 或 时),熵的值趋于零(表示 的不确定性很低),这是由于当 或 时, .
- 另一种等价定义是:
设有一个随机变量
在上述条件下,最好的问问题的方式(对应平均问题数目的下界)是每个问题都可以将随机变量
- 熵还可以定义为”**信息量(quantities of information)**的期望”,即:
其中
表示事件 的信息量.
熵的引入
用熵来衡量确定一个随机变量的值所带来的信息量或消除的不确定性.下面的性质是可理解的:
- 非负性.避免这种情况:得知某个信息,不确定性反而增加.
- 单调性.发生概率越高的事件,不确定性(熵)越低.
- 累加性.多个随机事件总的不确定性等于各个随机事件不确定性的和,即
.
可以证明,满足上述条件的熵的定义必为下述形式:
的不同取值相当于对数取不同的底数.
信息量
信息量(quantities of information),也称自信息(self-information),定义如下:
对于事件
一般将”随机变量取某个值”作为讨论信息量时的事件,即要求上面的
在某随机变量的取值范围内,即: 是随机变量 的取值集合,要求 .
不难看出,事件发生的概率越小,它的发生带来的信息量就越大.
信息量可以视为事件发生前后熵的减小量:
假定随机变量
反过来,也可以通过信息量来定义熵:
设随机变量
互信息, mutual information, MI
度量两个随机变量相互依赖的程度,也可度量两个随机变量相互包含的信息量.
离散随机变量
其中:
是联合PMF; 是边缘PMF.
互信息还可以等价表示为:
边缘熵
,条件熵 ,联合熵 . 类似于并集、差集和交集的关系
性质
- 非负性:
相互独立
随机变量的函数
PMF
PDF、CDF
期望
方差
条件
条件期望
独立
事件的相互独立性
随机变量的相互独立性
若干个相互独立的随机变量之和的方差
常见分布
B,U,G,P为离散的分布;
N,U,E为连续的分布.
均匀分布有离散的和连续的两种
相应分布的含义:
分布 | 符号表示 | 随机变量含义 | 参数含义 |
---|---|---|---|
正态分布 | - | 期望 | |
二项分布 | 多次伯努利试验中成功的次数 | 伯努利试验:次数 | |
均匀分布 | 某个区间内等可能地取值 | 取值端点 | |
几何分布 | 进行伯努利试验直到成功的总次数 | 伯努利试验成功概率 | |
指数分布 | 泊松过程中,到事件首次发生的等待时间 | 事件在一次试验中发生的概率 | |
泊松分布 | 泊松过程中,事件发生的次数 | 事件在一次试验中发生的概率 |
相应分布的特征:
分布 | PMF | PDF | 期望 | 方差 |
---|---|---|---|---|
- | ||||
- | ||||
- | ||||
- | ||||
- |
正态分布, Normal distribution,
二项分布, Binomial distribution,
均匀分布, Uniform distribution,
几何分布, Geometric distribution,
指数分布, Exponential distribution,
泊松分布, Poisson distribution,
几何分布与指数分布的关系
指数分布与泊松分布的关系
- Title: 概率论
- Author: Aroma
- Created at : 2024-12-18 18:19:04
- Updated at : 2025-03-10 22:03:37
- Link: https://recynie.github.io/2024-12-18/probibility-theory/
- License: This work is licensed under CC BY-NC-SA 4.0.