概率论

Aroma

概率论

事件、样本空间、随机变量

样本空间完全由事件构成。

随机变量是对样本空间的某种数学描述,具体地说:随机变量可以被视为一个函数(映射),将样本空间映射到实数集(或其子集),把每个样本点都映射为一个实数.

随机变量的描述: PDF、CDF、PMF

分布函数(累积分布函数, Cumulative Distribution Function, CDF)

用F(x)表示随机变量X的分布函数, 定义:

The CDF “accumulates” probability “up to” the value x.

CDF的函数值是”X从的所有(可取得的)值对应概率之和”.

注意:一切随机变量都有CDF.

“函数是CDF”的必要条件有:

  • 广义单调递增(单调非减)

CDF的性质有:

  • X是离散型随机变量时,CDF是阶梯函数.
  • X是连续随机变量时,CDF是连续函数.

Note: CDF是连续函数随机变量是连续型随机变量

  • 当X是离散随机变量并取整数值时,分布函数和PMF可以用求和()或差分()互求.

密度函数(概率密度函数, Probability Density Function, PDF)

存在性:有的随机变量不具有CDF(也可能在某些点处不具有PDF).

定义:PDF是CDF对随机变量的导数,即:

分布列(概率质量函数, Probability Mass Function, PMF)

连续性随机变量的PDF与离散型随机变量的PMF具有同等地位.

离散型随机变量的PMF常用表示,定义为:

实际使用中,一般写作下面的形式:

也可以表示为:

第一种写法将分布列表示为函数(PMF).

第二种写法更直观,随机变量被放在了主要位置.更有”分布列”的感觉,不强调分布列的”函数”性.缺点:没有给出PMF的符号.

的自变量是可取的值,因变量是取得这个值的概率.所有概率的和应为1(归一性)

PMF/PDF 的性质

  • 非负性:
  • 归一性:

*Note:*由于PMF和PDF地位相同,后续的公式或推导可能只给出其一.

PMF/PDF与CDF 的关系

多维随机变量

随机变量的特征:期望、效用、方差、熵

期望

期望的定义

随机变量的期望记作 .

定义:

  • 求和符号与积分符号表示”取遍的所有可能值”.
  • 时,称的期望值有确切定义.
  • 两式分别对应离散型和连续型的随机变量.

时,称的期望无确切定义.在有些情形下,这种期望仍有实际意义的,可以与实数比较大小.

另外,当PDF或PMF具有轴对称性时,对称轴即为期望.(此时可能仍然没有期望的”确切定义”)

条件期望

全期望定理

期望法则

重期望法则

条件期望的期望等于无条件期望.

效用, utility

引入:圣彼得堡悖论

掷一枚均匀的硬币,直到出现反面向上为止.假定每次抛掷是独立的.若你抛掷了次,你可以获得元,你得到的钱数的期望值是多少?你愿意付多少钱玩这个游戏?

这是圣彼得堡悖论的问题.最简单的想法是:付钱的数额小于收益的期望值时,我们会获得利润.因此,首先计算期望.

设得到的钱数为随机变量,不难得出,期望值的值:

说明,从期望值的角度来看,我们付任意多的钱玩这个游戏都是划算的(总能得到利润).

悖论就在这里:在类似的情境中,大部分人的选择与上述计算不符,他们不会选择付那么多的钱.

不难发现:玩家只有极小的概率获得大量的钱,有很大的可能只会获得少量的钱.这可能是人们不愿付很多钱玩这个游戏的原因.

这说明,人直观的选择(或者说”做出选择的习惯”)并非依据数学期望.为解释经济学中的这种现象,提出了效用的概念以替代数学期望,并假定:人通过效用决定自己的消费或投资.

**效用(utility)**这一概念是对”消费或投资的满意度”的抽象.借助上面的例子就是,玩家通过自己在游戏中获得的钱的效用的期望来决定自己付多少钱玩这个游戏.

在之前的说明中,我们实际上假定”玩家通过自己在游戏中获得的钱的期望来决定自己付多少钱”.

用”收益(钱)的效用”来替代”收益(钱)“本身.

边际效用递减法则

效用与”收益”仍然高度相关,几乎只有一个区别:效用在收益的基础上考虑了边际效用的递减.

经济学和心理学上,边际效用递减法则包含两个角度:生产者和消费者.

  • 生产者.企业通过生产产品获得收益,随着生产产品的数量逐渐增多,生产单位产品所获取的利润逐渐减少. 也就是说,“总收益-总产品”图像的曲线是凸函数(二阶导数为负).
  • 消费者.反复受到相同刺激(消费属于刺激的一种)时,刺激带来的满足感(效用)随刺激次数的增加而逐渐减少.也可以说,效用与收益满足:充分大时,且值越大(接近”边际”时),二者差值越大.用数学语言描述就是:“效用-收益”函数的二阶导数为负.

例如,A获得了100元,B获得了10000元,“A获得100元的满足感”大于”B获得(10000元中的)100元的的满足感”.

消费者的边际效用递减法则与心理学相关,生产者的边际效用递减法则与经济学相关.

对特殊人群或特殊情况,边际效用递减法则可能不成立(或边际效用递减不明显).

效用函数

此处考虑的效用函数是对于消费者而言的效用.

效用函数刻画效用与收益之间的关系,即”效用-收益”函数,暂记作.

由边际效用递减法则得出需要满足的条件:

  • 是递增函数
  • 充分大时

不同决策者对效用的看法不同,因此没有适用于所有人的效用函数.

实用中一般取作为效用函数.

圣彼得堡悖论的解决

不再采用期望作为付钱的标准,转而使用效用的期望.

设得到的钱数为随机变量,效用为随机变量.选择作为效用函数.

  1. 第n次出现正面的概率是

  2. 玩家赢得的金额是

  3. 赢得金额的效用是

期望效用计算如下;

此模型下得到的结果是收敛的,更符合实际情况.

方差, variance

方差与标准差的定义

方差和标准差(standard deviation)都可衡量随机变量的分散程度(或者说”不确定的程度”、“不稳定程度”),它们的值越大,说明随机变量的值越分散(不确定性更大、不稳定).

随机变量的方差记作,定义如下:

可通过计算的PMF或PDF,再求的期望得到.

方差的计算不使用定义式(先得到的分布,再求期望),而使用如下方法:

标准差(standard deviation) 定义为:

标准差的好处在于,它与同量纲.

条件方差

方差的性质

标准差和方差都是非负的.

全方差法则

矩, moment

n阶矩

对于PDF为的随机变量,定义此分布(或随机变量)的阶矩为:

取不同实数,得到不同的矩.似乎只能取0或.

时,称为原点矩;当时,称为中心矩.

原点矩性质:

  • 一阶原点矩即为期望

中心矩性质:

  • 中心矩为次齐次函数:
  • 一阶中心矩恒为零
  • 二阶中心矩即为方差

计算:

利用

这样就不必求的PMF了.

标准矩, standard moment

标准矩记作,它的定义与n阶矩不同,为:

为标准差,为第阶中心矩,为期望(一阶原点矩)

标准矩是标准化后的中心矩,标准化即指将中心矩除以标准差.这样做使得标准矩对缩放和离散程度节能保持一致.

性质:

  • 标准矩具有缩放不变性
  • 标准矩是无量纲量
  • 1阶标准矩恒为0 (因为中心矩是0)
  • 2阶标准矩恒为1 (因为中心矩等于方差)

因为最后两条性质,实用的标准矩在3阶及以上.

某些矩的别名和恒等于的值

矩的阶数原点矩中心矩标准矩
1期望=0=0
2均方值方差,variance=1
3--偏度,skewness
4--峭度,kurtosis

矩母函数

熵, entropy

这里提到的熵均指”信息熵(information entropy)”.

本节中,所有对数都是以2为底的对数.

熵用于刻画随机变量的”不确定性”或”无序性”.

In information theory, the entropy of a random variable is the average level of “information”, “surprise”, or “uncertainty” inherent in the variable’s possible outcomes.

一个随机变量的熵是指该变量可能的结果所蕴含的不确定性的平均水平.

  • 熵的基本定义:

是一个随机变量,取值范围为,定义的熵为:

熵的单位与定义熵时采用的底数有关,当以2为底数时,单位为bit.

本节的既可以表示”随机变量可取的值“,又可以表示”事件“.

注意到.直观地看,当的值趋于确定值的时候(趋于时),熵的值趋于零(表示的不确定性很低),这是由于当时, .

  • 另一种等价定义是:

设有一个随机变量.取有限个值,为确定的值,通常用”是非题(只能回答是或否的问题)“的方法逐步确定,则定义”为确定的值所需要问的问题的平均数的下界”为.

在上述条件下,最好的问问题的方式(对应平均问题数目的下界)是每个问题都可以将随机变量的取值范围缩减一半.

  • 熵还可以定义为”**信息量(quantities of information)**的期望”,即:

其中表示事件的信息量.

熵的引入

用熵来衡量确定一个随机变量的值所带来的信息量或消除的不确定性.下面的性质是可理解的:

  • 非负性.避免这种情况:得知某个信息,不确定性反而增加.
  • 单调性.发生概率越高的事件,不确定性(熵)越低.
  • 累加性.多个随机事件总的不确定性等于各个随机事件不确定性的和,即.

可以证明,满足上述条件的熵的定义必为下述形式:

的不同取值相当于对数取不同的底数.

信息量

信息量(quantities of information),也称自信息(self-information),定义如下:

对于事件,其信息量是随机变量,定义为:

一般将”随机变量取某个值”作为讨论信息量时的事件,即要求上面的在某随机变量的取值范围内,即:是随机变量的取值集合,要求 .

不难看出,事件发生的概率越小,它的发生带来的信息量就越大.

信息量可以视为事件发生前后熵的减小量:

假定随机变量的取值范围是, ,则

反过来,也可以通过信息量来定义熵:

设随机变量,即:当随机变量确定下来时,随机变量的值就取.

互信息, mutual information, MI

度量两个随机变量相互依赖的程度,也可度量两个随机变量相互包含的信息量.

离散随机变量的互信息定义:

其中:是联合PMF; 是边缘PMF.

互信息还可以等价表示为:

边缘熵,条件熵,联合熵.

类似于并集、差集和交集的关系

性质

  • 非负性:
  • 相互独立

随机变量的函数

PMF

PDF、CDF

期望

方差

条件

条件期望

独立

事件的相互独立性

随机变量的相互独立性

若干个相互独立的随机变量之和的方差

常见分布

B,U,G,P为离散的分布;

N,U,E为连续的分布.

均匀分布有离散的和连续的两种

相应分布的含义:

分布符号表示随机变量含义参数含义
正态分布-期望,标准差
二项分布多次伯努利试验中成功的次数伯努利试验:次数,成功概率
均匀分布某个区间内等可能地取值取值端点,
几何分布进行伯努利试验直到成功的总次数伯努利试验成功概率
指数分布泊松过程中,到事件首次发生的等待时间事件在一次试验中发生的概率
泊松分布泊松过程中,事件发生的次数事件在一次试验中发生的概率

相应分布的特征:

分布PMFPDF期望方差
-
-
-
-
-

正态分布, Normal distribution,

二项分布, Binomial distribution,

均匀分布, Uniform distribution,

几何分布, Geometric distribution,

指数分布, Exponential distribution,

泊松分布, Poisson distribution,

几何分布与指数分布的关系

指数分布与泊松分布的关系

  • Title: 概率论
  • Author: Aroma
  • Created at : 2024-12-18 18:19:04
  • Updated at : 2025-03-10 22:03:37
  • Link: https://recynie.github.io/2024-12-18/probibility-theory/
  • License: This work is licensed under CC BY-NC-SA 4.0.