第三章-云模型简介.doc
- 文档编号:108140
- 上传时间:2022-10-03
- 格式:DOC
- 页数:8
- 大小:342KB
第三章-云模型简介.doc
《第三章-云模型简介.doc》由会员分享,可在线阅读,更多相关《第三章-云模型简介.doc(8页珍藏版)》请在冰豆网上搜索。
第三章云模型简介
在人类认知以及进行决策过程中,语言文字是一种强有力的思维工具,它是人类智能和其他生物智能的根本区别。
人脑进行思维不是纯粹地应用数学知识,而是靠自然语言特别是客观事物在人脑中的反映而形成的概念。
以概念为基础的语言、理论、模型是人类描述和理解世界的方法。
自然语言中,常常通过语言值,也就是词来表示概念。
而语言值、词或概念与数学和物理的符号的最大区别就是其中包含太多的不确定性。
在人工智能领域,不确定性的研究方法有很多,主要有概率理论,模糊理论,证据理论和粗糙集理论;对于确定性系统的不确定性的研究还有混沌和分形的方法。
这些方法从不同的视角研究了不确定性,优点是:
有切入点明确、边界条件约束清楚、能够对问题进行深入研究等,但是在研究中常常将不确定性分成模糊性和随机性分开进行研究,然而两者之间有很强的关联性,往往不能完全的分开。
随机性是指有明确定义但是不一定出现的事件中所包含的不确定性。
例如在投掷硬币试验中,硬币落地时要么有国徽的一面向上,要么标有分值的一面向上,结果是明确的可以预知的,但是每次试验结果是随机的。
概率论和数理统计是研究和揭示这种随机现象的一门学科,至今已有几百年的研究历史.模糊性是另一种不确定性,是已经出现的但是很难精确定义的事件中所包含的不确定性。
在日常工作和生活中存在着许多模糊概念,如“胖子”“年轻人”“收入较高”等。
为处理这些模糊概念,引入了模糊集的概念[41],使用隶属度来刻画模糊事物彼此间的程度。
隶属度函数常用的确定方法有模糊统计法、例证法专家经验法等,这些方法确定隶属度函数的过程是确定的,本质上说是客观的,但每个人对于同一个模糊概念的认识理解存在差异,因此有很强的主观性,而且一旦隶属度函数确定之后,得到的概念、定理等包含着严密的数学思维,其不具有任何模糊性。
针对上述问题李德毅院士在传统的概率统计理论和模糊理论的基础上提出了定性定量不确定性转换模型——云模型,实现定性概念和定量值之间的不确定性转换。
在此工作上,一些学者对云模型做了深入系统的研究,使其日趋成熟,并将它成功地应用于不确定性推理、关联规则挖掘,空间数据的挖掘,智能控制及时间序列预测等领域。
云模型能模拟人类思维灵活划分属性空间,在较高的概念层上泛化属性值,完成定量数值到定性概念间的转换,同时允许相邻属性值或语言之间有重叠,这种划分使发现的知识具有稳健性。
而由于计算机系统的行为存在随机性和不确定性,云模型能够很好地处理具有随机性和不确定性的数据,所以可将云模型引入到入侵检测中来,通过云模型建立的入侵检测系统具有较准确的检测能力和适应能力。
3.1云模型的引入
云模型能够实现定性概念与定量值之间的不确定性转换。
同时数据挖掘是基于不同认知层次的“数据-概念-知识”视图,“数据”中包含大量的不确定性知识,而云模型能够更准确地将数据表达为概念,进而发现准确、完整的知识。
因此将云模型应用于数据挖掘中可以提高数据挖掘的准确度。
下面简单介绍云模型的一些概念和数字特征,重点介绍云的概念、正态云发生器及正态云的数学性质。
3.1.1云和云滴
定义3.1[42]设是一个精确数值表示的定量论域,是上的定性概念,若定量值,且是定性概念的一次随机实现,对的确定度是有稳定倾向的随机数
(3.1)
则在论域上的分布称为云(Cloud),每一个称为一个云滴[42]。
云具有以下性质[42][42]:
(1)论域可以是一维的,也可以是或多维的。
;
(2)定义中所提及的随机实现,是概率意义下的实现;定义中所提及提到的确定度,是模糊集意义下的隶属度,同时又具有概率意义下的分布。
;
(3)对于任意一个,到区间[0,1]上的映射是一对多的变换,对的确定度不是一个固定的数值,而是一个概率分布。
;
(4)云由云滴组成,云滴之间无次序性,一个云滴是定性概念在数量上的一次实现,云滴越多,越能反映这个定性概念的整体特征。
;
(5)云滴出现的概率大,云滴的确定度大,则云滴对概念的贡献大。
3.1.2云的数字特征
云的数字特征能够反映概念的整体性和定性知识的定量特性,其它对定性概念的理解定性概念的内涵和外延有着极其重要有很重要的意义。
云一般用期望(Expectedvalue)、熵(Entropy)和超熵这(Hyperentropy)三个数字特征来整体表征一个概念[43],如图3-1所示。
图3-1云的数字特征
Fig.3-1DigitalCharacteristicsoftheCloud
期望:
云滴在论域空间分布的期望,是概念在论域中的中心点,其最能够它是最可以代表定性概念的值点[43]。
熵:
定性概念的不确定性度量,由概念的随机性和模糊性共同决定。
一方面熵是定性概念随机性的度量,反映了能代表这个定性概念的云滴的离散程度;另一方面又是定性概念模糊度的度量,反映了论域空间中可被概念接受的云滴的取值范围,此外熵还能反映随机性和模糊性之间的关联性[43]。
超熵:
是熵的不确定性的度量,即熵的熵,由熵的随机性和模糊性共同决定,反映了云滴的离散程度,超熵的大小间接地反映云的厚度,超熵越大,云的厚度越大[43]。
3.1.3云模型的类型
云模型是云的具体实现方法,是云运算、云推理、云控制、云聚类等方法的基础。
由定性概念到定量表示的过程,也即由云的数字特征产生云滴的过程,称为正向云发生器。
由定量表示到定性概念的过程,也即由云滴群得到云的数字特征的过程,称为逆向云发生器。
云有很多种实现方法,可构成不同类型的云,如半云模型、对称云模型、组合云模型等,还可以扩展到多维云模型。
3.2正态云
正态分布是概率理论中重要分布之一,通常用均值和方差两个数字特征表示;钟形隶属度函数是模糊理论中使用最多的隶属函数,通常用来表示。
正态云正是在二者基础上发展起来的全新模型。
定义3.2[43]设是一个精确数值表示的定量论域,是上的定性概念,若定量值,且是定性概念的一次随机实现,若满足:
其中,且对的确定度满足:
(3.2)
则在论域上的分布称为正态云[43]。
3.2.1正态云发生器
正态云发生器[44]是指用计算机实现的一种特定算法,其可以用集成的微电子器件来实现,包括正向云发生器和逆向云发生器。
(1)正向云发生器
正向云发生器是实现定性概念到定量值的转换模型,其由云的数字特征()产生云滴,如图3-2所示。
图3-2正向云发生器
Fig.3-2ForwardCloudGenerator
(2)逆向云发生器
逆向云发生器[44]是实现定量值到定性概念的转换模型,它可以将一定数量的精确数据转换为以数字特征()表示的定性概念,如图3-3所示。
图3-3逆向云发生器
Fig.3-3BackwardCloudGenerator
逆向正态云发生器的算法基于统计原理思想,基本算法有两种:
一是无需确定度信息的逆向云发生器算法;二是需要确定度信息的逆向云发生器算法[44]。
3.2.2云滴对概念的贡献
在正向正态云模型中,云滴群对概念的贡献是不同的。
本文以一维正向正态云为例来说明云滴群对概念的贡献程度。
定义3.3在一维论域中,中任一小区间上的云滴群对定性概念的贡献[43]为
(3.3)
易得,论域()上所有元素对概念的总贡献为
(3.4)
同理,可得论域[]上所有元素对概念的总贡献为:
=(3.5)
因此论域中对定性概念有所贡献的云滴,主要落在区间区间中,常常通常可以忽略区间区间之外的云滴对定性概念所做的贡献,这这就即是为正向正态云的“规则”[44]。
同理位于区间区间内的云滴,占全部所有定量值的22.33%,对定性概念的贡献它的贡献占总贡献的50%,这部分的这部分云滴被称为“骨干元素”;位于区间区间内的云滴,占全部所有定量值的33.33%,对定性概念这部分的贡献占总贡献的68.26%,这部分元素被称为“基本元素”;位于区间区间和区间区间内的云滴,占全部所有定量值的33.33%,它们对定性概念的贡献占总贡献的27.18%,这该部分元素被称为元素为“外围元素”;位于区间区间和区间区间内的云滴,占全部定量值的33.33%,它们对定性概念的贡献占总贡献的4.3%,这部分云滴被称为“弱外围元素”[44]。
不同的区域内的云滴群对定性概念所做的的贡献不同,如图3-4所示。
图3-4云滴群对定性概念的贡献这图能不能小点儿
Fig.3-4CloudDropletsContributetoQualitativeConcept
3.3正态云的数学性质
3.3.1云滴分布的统计分析
根据正态云发生器算法,所有云滴的集合构成随机变量,服从以为期望、为方差的正态分布,所以的概率密度函数[44]为
(3.6)
如果为定值时,服从以为期望、为方差的正态分布,此时的概率密度函数[44]为
(3.7)
由于是随机变量,由条件概率密度公式可知的概率密度函数为
(3.8)
这是式(3.8)是一个概率密度函数,它没有不具备解析形式的概率密度函数,对于任意的变量,可以通过数值积分计算可以得到与之相应的函数值。
对于当云滴个数为个云滴的情况时,可以采利用Parzen窗的方法可以估计估算出的概率密度函数[44]。
特殊地特别地,当时,的概率密度函数为
(3.9)
因为所有的云滴均都来自于期望为的正态随机变量,所以期望,方差。
由此可得由此可知,由正态云发生器所产生的云滴,是一个期望为、方差为的一个随机变量[44]。
3.3.2云滴确定度的统计分析
根据正态云发生器算法,随机变量由所有云滴的确定度构成随机变量,每一个确定度可以看作是由随机变量
(3.10)
产生的一个样本可以作为一个云滴的确定度。
经过计算可知,无论取何什么值,随机变量的概率密度函数都均保持不变,即所有的也就是全部的确定度都来自一个密度为
(3.11)
的随机变量。
故所以,随机变量的概率密度函数就是即为随机变量的概率密度函数,由此可以看出看到,确定度的概率密度函数同与正态云的三个数字特征无关没有关系[43]。
对于论域空间中的,还可以研究联合分布的概率密度函数。
当论域空间是一维时,是一个二维的随机变量,可以计算其它的联合概率密度函数[43]。
对于任意,其中,结合公式3.11可知也服从正态分布。
经计算得到的联合概率密度函数为
(3.12)
当论域空间是为高维的时候时,其它的联合概率密度函数将会更加复杂[43]。
3.4本章小结
本章详细的介绍了云模型理论,包括云的概念、正态云的数学性质、云滴对概念的贡献等。
云模型理论作为新的研究不确定性的理论,该方法可应用于数据挖掘算法,提高挖掘效率。
本文第五章应用该理论提出了一种基于云模型的异常挖掘算法。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 模型 简介