信息论02课件_1.ppt
- 文档编号:1057163
- 上传时间:2022-10-16
- 格式:PPT
- 页数:86
- 大小:1.74MB
信息论02课件_1.ppt
《信息论02课件_1.ppt》由会员分享,可在线阅读,更多相关《信息论02课件_1.ppt(86页珍藏版)》请在冰豆网上搜索。
第一章信息论的基本概念,熵(Entropy)与互信息(MutualInformation)1.1不确定性与自信息1.2Shannon离散熵1.2.1单变量熵函数1.2.2形式的唯一性1.2.3的性质1.2.4最大离散熵定理,1.3离散互信息1.3.1概念1.3.3互信息函数的性质1.3.2多变量情况下的互信息1.4连续随机变量的熵和互信息1.4.1随机变量微分熵1.4.2随机变量函数的微分熵1.4.3互信息1.4.4微分熵的变换不变性,熵(Entropy)1.1不确定性与自信息对于通信系统,其传递的信息是具有随机性。
定量描述信息应基于随机事件。
随机事件的重要特性:
结果具有不确定性。
例:
(1)第一次出门遇见的乌鸦的颜色是白色。
X
(2)第一次出门遇见的人用手习惯是左撇子。
Y(3)第一次出门遇见的人的性别是女性。
Z,X=(x1,x2)=(白,黑)Y=(y1,y2)=(左,右)Z=(z1,z2)=(女,男),判断X=x1,Y=y1,Z=z1的不确定性:
p(x1)(Yy=y1)(Zz=z1)随机事件发生的不确定性与发生的概率有关不确定性的量化:
随机事件发生的不确定性为概率的函数,设为f(pi),该函数应具有如下性质:
(1)单调性:
pif(pi)
(2)f(pi)非负f(pi)0:
任何随机事件发生存在不确定性。
(3)可加性多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和。
例:
事件X=x1,Y=y1同时发生,其发生概率为p(X=x1,Y=y1)=p(x1)p(y1),而f应满足:
f(p(X=x1,Y=y1))=f(p(x1)+f(p(y1),f能够将积变成和的功能。
可设为对数函数:
随机变量X取值xi的概率为pi,则其取值xi的不确定性的量度f(pi)可用下面函数表示:
f(pi)为随机事件X取值xi所带来的自信息。
信息量:
消除不确定性所获得的信息。
信息量=不确定性的减少量不确定性消除的量就是我们所获的信息量,平均不确定性设随机变量X如下N元概率空间:
1.2Shannon熵1.2.1单变量离散熵函数定义:
随机变量X概率空间如上,则其不确定性的量度可表示为:
Shannon单变量离散熵函数。
1.2.2熵函数形式的唯一性定理1.1对于随机变量X存在这样的表示不确定性的量度的函数,为概率分布p1,p2,pN的函数:
且该函数满足以下三个先验条件:
连续性:
是的连续函数。
单调性:
等概时为单增函数,(3)可加性:
当随机变量X的取值不是通过一次试验,而是若干次试验才最后得到时,则X在各次试验中的不确定程度应该可加,且其和始终与通过一次试验取得结果的不确定程度相同:
即则函数有下面的唯一形式:
熵函数:
表示随机变量X的不确定性的量度,称为Shannon熵。
随机变量X,Y,熵表示为H(X),H(Y),为多元函数。
可加性解释:
设随机变量X,通过一次试验观察x1发生的不确定程度为下面分两次试验来观察:
(试验1)随机变量那么发生的不确定程度可表示为(试验2)随机变量,则计算得=+,熵函数形式的唯一性定理的证明可参见参考书1和3。
熵值的单位以2为底:
bit(binaryunit)以e为底:
nat(natureunit)以10为底:
Hart(Hartley)换算关系:
1nat=1.44bit1Hart=3.32bit一般取以2为底,1bit的信息量就是二元概率空间在等概时的熵值。
注:
计算机技术中的述语“比特”表示一个二元数字,每个二元数字所能提供的最大平均信息量为1比特。
例1.一副52张的扑克牌,现将其充分洗牌,试问:
(1)任意特定组合所给出的平均信息量是多少?
(2)若任意从这副牌中抽出13张,所示的点数都不同,应获得多少信息量?
解:
(1),
(2)将52张牌中的点数相同而花色不同的四张牌看作一类,共分13类。
例如其中一类为:
红桃A,黑桃A,方块A,草花A则其发生的概率为:
1.2.3熵函数的性质性质1.非负性,即0.引理(基本不等式):
当,性质2.对称性:
其中,性质3.熵函数具有凸性,即是概率矢量集上的上凸函数,其中,凸集和凸函数凸集:
若对集合D中任意两点和,均有:
则称集合D是凸集。
集合是一个N-1维凸集。
凸函数:
(1)定义在凸集D上的函数称为下凸函数,如果,
(2)定义在凸集D上的函数称为上凸函数,如果,Jenson不等式,设是D上的下(上)凸函数,且,则有,凸函数的线性组合仍是凸函数。
性质4.熵函数具有凸性,即是概率矢量集上的上凸函数。
物理意义和实用价值,闭集上极值的唯一性最大值通信系统中优化问题的目标函数,信源由随机变量X确定:
1.2.4最大离散熵定理概率场(空间):
(,F,):
基本事件空间,=F:
族(集合的集合):
测度,F上的非负的集合函数直观上,对于完备的概率场,其密度越大,概率值的分布就越均匀,熵(平均不确定性)就越大,均匀到等概时,熵将达到最大值。
定理1.2对随机变量X:
即概率空间等概时,熵达到最大值。
证明:
函数为上凸函数,应用Jenson不等式得,而当则极值达到,且为最大值。
说明是针对有限概率空间(状态数有限的随机变量)的。
状态数不可数?
对于完备的空间,从数学角度,Renyi局部熵(1970),Renyi熵(1960),Daroczy:
熵(1970),Arimoto:
熵(1971),明确一点:
1.Shannon熵是针对有限概率场的,对于可列可数的情况是不适用的。
2.概率论给出对随机现象描述方法:
分布函数,数字特征(中心矩,原点矩),特征函数,随机过程。
没有考虑:
(1)随机性程度(单随机变量)
(2)独立或依存程度(多随机变量)(3)随机性差异程度的量度熵不确定性的量度,随机性的程度。
互信息若干个随机变量独立或依存程度。
鉴别信息随机性差异程度的量度。
1.2.5联合熵和条件熵1.联合熵和条件熵的概念设随机变量X,Y如下:
考虑联合随机变量(XY)(X,Y)不确定性如何考虑?
联合熵,例1:
两个独立的随机试验X和Y。
袋子里装m个黑球,n个白球,X从中随机取出一个球,看颜色,放回;Y再从中随机取出一球,看颜色。
研究联合试验(XY)的不确定性。
H(XY),取黑球,取白球,则由熵的定义可以验证(对于独立的随机试验):
例2:
两个不独立的随机试验X和Y袋子里装m个黑球,n个白球,X从中随机取出一个球,看颜色,不放回;Y再从中随机取出一球,看颜色。
分析联合试验(XY)的不确定性。
分析:
试验Y的结果依赖于试验X的结果。
例如m=3,n=2X:
Y:
由定义知:
表示时对随机变量Y的统计平均,即为时,Y的平均不确定性,记为时Y的条件熵:
当X遍取所有值时,即对X取统计平均得X已知时,Y的条件熵,条件熵的物理意义:
(1)在X已知的条件下,Y的不确定性量度。
(2)损失熵:
在实践中,要了解随机现象Y的不确定性,但经常不能直接了解,而是需通过另一随机现象X来间接了解Y,显然这是无法全面真实了解Y的,在这一过程中损失的关于Y的信息为。
2.一些重要的关系式
(1)
(2)()从直观的物理意义上:
条件熵不大于无条件熵。
了解X的不确定性,有助于了解Y的不确定性。
可证明:
有,(3)注:
X与Y相互独立时:
()X,Y“相互无助”。
(4)X与Y有确定的函数关系:
Y完全由X确定,知道了X,Y的不确定性消失。
X完全由Y确定,,3.多随机变量情形联合熵:
条件熵:
4.离散熵在一一对应变换下熵不变。
对随机变量X做一一对应的变换:
Y=f(X)X与Y具有相同的分布,变换只是相当于改变X的取值。
一一对应变换,1.3离散互信息1.3.1概念1.互信息:
随机变量依存性的量度若,或有确定性关系:
Y由X完全确定,依存性最大若X,Y相互独立,依存性最小所以依存性可用衡量(或衡量)将这种依存性的量度表示为。
另解释:
随机变量X,Y对应的熵为和,现通过X了解Y,知道X的情况下,Y所“残留”的不确定性,消除了的不确定性为那么该值就相当于X中含有的关于Y的信息量。
表示为,可以验证而利用,则可以看作概率矢量和条件概率矩阵的函数,即,1.3.3互信息函数的性质1.非负性:
2.极值性:
3.凸性:
(1)关于是上凸函数
(2)关于是下凸函数,注:
“单个”互信息:
自互信息平均互信息自互信息:
1.3.2多变量情况下的互信息1.多元随机变量之间的互信息物理意义:
联合随机变量YZ与随机变量X之间的平均互信息X的不确定性量度减去YZ已知的条件下X的不确定性量度。
2.条件互信息:
已知随机变量Z时,X与Y之间的条件互信息。
由定义:
得关系式:
3.多个随机变量之间的互信息可定义:
无物理意义。
为数学上的需要构造的。
4.一些关系式由上式可得到:
例题1假硬币问题,设有同一规格的硬币25枚,其中24枚是标准的,重量相同;而另一枚是假的,重量较标准轻,但其外观上与标准的一样,难于分辨真伪。
试求在不用砝码的天平上至少称多少次,才能发现其中的假硬币。
分析:
因为25枚硬币中每一枚都有可能是假币,所以判断的试验X0假币最大的不确定性的量值为:
H(X0)=log25,设用天平称两枚硬币的试验X:
每一次试验有三种可能的结果:
例题2假币问题,袋中有两枚硬币,一枚正常(一面是国徽,另一面是面值),另一枚不正常(两面都是面值)。
现从袋中随机地抽取一枚硬币,并抛掷两次。
试分析出现面值的次数对于硬币正常与否的识别所能提供的信息是多少?
分析:
设两个随机变量X与Y:
X随机试验:
从袋中抽取一枚硬币,观察其真伪。
X=0:
正常硬币、X=1:
不正常硬币Y随机试验:
抛掷硬币两次,观察出现面值的次数。
需求解I(X;Y)=H(X)-H(XY)H(X)=1,H(XY)=?
概率空间:
P(Y=0)=p(X=0)p(Y=0X=0)+p(X=1)p(Y=0X=1)=0.50.50.5+0.50=0.125P(Y=1)=p(X=0)p(Y=1X=0)+p(X=1)p(Y=1X=1)=0.50.5+0.50=0.25P(Y=2)=p(X=0)p(Y=2X=0)+p(X=1)p(Y=2X=1)=0.50.50.5+0.51=0.625而p(X=0Y=2)=p(X=0)p(Y=2X=0)/p(Y=2)=0.2p(X=1Y=2)=p(X=1)p(Y=2X=1)/p(Y=2)=0.8,得:
H(XY=2)=0.722H(XY=0)=H(XY=1)=0所以:
H(XY)=0.4513I(X;Y)0.5487,例题3-骰子问题概率空间的选择与信息量,同时掷两枚骰子,设各个点数出现的概率相等,设随机试验为观察骰子面朝上的点数情况。
观察点数之和随机变量为Y:
当掷出后,发现和为8,则不确定性消除,试验者获得值为的信息量。
继续获知为何种数对,则可做另一随机试验X:
为此还要消除H(X)=log5大小的不确定性。
观察何种数对:
通过一次试验:
随机变量Z变成Z1,通过两次试验:
试验者获得的信息:
例题4-扑克牌问题,一副52张的扑克牌,现将其充分洗牌,试问:
(1)任意特定组合所给出的平均信息量是多少?
(2)若任意从这副牌中抽出13张,所示的点数都不同,应获得多少信息量?
解:
(1)52张的任意特定组合全排列,
(2)将52张牌中的点数相同而花色不同的四张牌看作一类,共分13类。
例如其中一类为:
红桃A,黑桃A,方块A,草花A则其发生的概率为:
B的计算:
确定是哪一幅牌:
注意,5.数据处理定理,设随机变量X,Y,Z:
马氏链,随机变量X,Y,Z,构成马氏链,如果对一切有记为XYZ。
后一个符号的出现的概率只与前一个符号有关,而与更前面的符号无关。
定理1.3设随机变量X,Y,Z构成马氏链XYZ,则意义:
处理器1处理器2Z中包
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息论 02 课件 _1