海量信息的协同性和可生存性的理论与实践研究.docx
- 文档编号:7586146
- 上传时间:2023-01-25
- 格式:DOCX
- 页数:49
- 大小:4.60MB
海量信息的协同性和可生存性的理论与实践研究.docx
《海量信息的协同性和可生存性的理论与实践研究.docx》由会员分享,可在线阅读,更多相关《海量信息的协同性和可生存性的理论与实践研究.docx(49页珍藏版)》请在冰豆网上搜索。
海量信息的协同性和可生存性的理论与实践研究
海量信息的协同性和可生存性的理论与实践研究
摘要:
建立在先进网络环境下拥有有海量信息、运行着海量进程、执行海量通信、服务于海量用户的复杂应用服务系统是21世纪信息社会的基础设施,是人类赖以生存的必不可少的环境。
提高海量信息系统的服务质量是当今信息领域的学术界和企业界的首要任务,本论文在已有的研究基础上选择了海量信息的协同性作为研究目标。
海量信息的协同性是指通过先进网络,使用不同类型的通信协议交换信息,规划、协调和监控海量用户的计算和通信行为,实现不同地域、不同性质的资源共享,合作完成某项任务或服务的行为特征。
关键词:
海量信息;协同性;可生存性
目录
第一章绪论………………………………………………………………………...…………1
1.1引言………………………………………………………………………………………1
1.2研究目标………………………………………………………………………..…………3
1.3工作基础和条件………………………………………...…….………………..………….3
1.4问题划分………………………………………………………..…………………………8
第二章国内外研究现状和发展趋势…………………………………………………………9
2.1面向服务的网格计算和对等网计算………………………………………………………9
2.2海量信息协同系统………………………………………………………………….……10
2.3分布式软件系统可生存性研究……………...….………………….…………………102.4我国的相关研究工作………………………………………………….…………………10
第三章海量信息协同性和可生存性的信息科学特征研究…………………………………12
3.1系统信息更新的基础理论研究…………………………………………………………..12
3.1.1研究背景…………………………………………………………………………….....12
3.1.2主要研究结果…………………………………………………………………………..12
3.2海量信息传输的观测试验研究………………………………………………………..…13
3.2.1IPv6全球骨干网络观测平台……………………………………………………………14
3.2.2IPv4大规模业务网络观测………………………………………………………………14
3.3海量信息计算的统计特征研究——RB模型的研究……………………………………..16
3.4小结………………………………………………………………………………………16
第四章海量信息系统协同性随机模型与可生存性复杂性分析……………………………18
4.1SpinGlasses理论与海量信息协同的算法和复杂性研究…………………………………18
4.2海量信息系统协同性的随机模型研究…………………………………………………..19
4.3海量信息系统可生存性的代数学研究…………………………………………………..20
4.4网络环境下协同计算的形式化模型与行为研究………………………………………...21
4.5小结………………………………………………………………………………………22
第五章实时协同可生存的海量信息系统的试验与验证平台………………………………23
5.1海量协同服务网络的体系结构………………………………………………….………23
5.1.1基于对等结构自组织覆盖网络体系结构的研究……………………….……………...23
5.1.2基于多渠道服务的混合网络结构研究…………………………………………………24
5.2基于内容的海量协同服务………………………………………………...……………..25
5.3可生存的协同服务网络……………………………………………………………….…34
5.4面向复杂协同网络的试验平台……………………………………………….………….39
5.5小结………………………………………………………………………………………39
第六章结果与讨论…………………………………………………………….…………….41
6.1研究结果…………………………………………………………………………………41
6.2海量信息未来研究趋势走向…………………………………………….………………43
6.3总结………………………………………………………………………………………43
参考文献…………………………………………………………………………….……….46
Abstract……………………………………………………………………………..……….47
第一章绪论
1.1引言
先进网络及应用的高速发展带动了人类社会从工业化社会向信息化社会的转变。
先进网络及其应用也相应构成了现代社会的核心基础设施,它拥有的数据量达到万亿至兆亿量级,并且仍处在不断扩充之中,每时每刻都有千万至数亿进程同时运行,对海量信息进行处理和传输,已成为人们生存不可缺少的环境。
它们是建立在先进网络环境下拥有海量信息、运行着海量进程、执行海量通信、服务于海量用户的复杂应用服务系统(以下简称“海量信息系统”)。
建设、发展和完善信息基础设施的努力将构成信息产业的重要组成部分。
解决在设计、实现和维护信息基础设施过程中出现的重大问题是信息科学与技术发展的主要动力。
随着社会信息化的高速发展,海量信息系统在国民经济和社会生活中应用的深度和广度都得到了巨大的进步,这使得海量信息系统的服务质量问题越来越成为人们关注的焦点。
在对海量信息系统的研究过程中,我们认识到不论是在理论、技术还是在实践研究方面,所有的努力其根本目的都是为了解决“资源共享、协同工作、鲁棒生存和有效扩展”四个方面的问题。
这一结论也被国际上最新的研究进展所证实。
由于海量信息的协同性和可生存性问题现已成为提高系统服务质量的主要障碍,解决这些问题的紧迫性越来越突出,所以本项目认为对海量信息协同性和可生存性问题的研究应该提到我国因特网研究的历史议程.应进行集中研究并取得突破,这将对我国IT产业的协调和可持续发展起到深远的全局性和基础性作用。
1.1.1海量信息的协同性
协同(coordinativity)是指规划、协调和监控两个或者两个以上的个体,共同完成同一任务的过程或能力。
协同是人类社会群体活动的基本特征。
小到双人对话,大到社会化组织之间的协作,都属于协同行为。
因特网上出现的视频会议、虚拟社区、网络教学、远程控制、电子政务、电子商务以及军事协同指挥等都是信息化社会中协同行为的新的表现形式.可以说每一个海量信息系统都是一个海量协同系统。
这些协同系统不论在协同的规模、所涉及的信息量、协同行为的复杂程度以及它们对社会发展的影响都大大扩展了协同的内涵,使人类的协同行为进人了一个新的信息化时代。
海量信息的协同性是指通过先进网络,使用不同类型的通信协议交换信息,规划、协调和监控海量用户的计算行为和通信行为,实现不同地域、不同性质的资源共享,合作完成某项任务(mission)或服务的行为特征。
任务(mission)是指在海量信息环境下,为了达到某个特定目的所进行的一系列基础活动的有序集合。
通俗地讲.海量信息系统的协同行为就是“将充足的资源,在必需的时间内,提供给所需的用户群,以便共同完成一项协作任务”协同性是海量信息系统的根本特性,它分为微观和宏观两个层面。
悔量信息系统良好的协同能力是实现高质量任务的保证和高可信基于内容的资源共享的必要条件。
保证协同能力的鲁棒生存和有效扩展是海量信息可生存性和可扩展性问题的核心。
目前对等网络(P2P)、面向服务的计算网格与实时流媒体协同环境等都涉及到协同问题,它们都是以技术处理的手段来解决协同问题。
以我们的实践为例,在前一期“973”项目中,项目组研制了基于流媒体协议的实时协同工作环境,该系统在2003年我国SARS流行期间,曾经在单个服务器上支持了由教育部召开的148个不同学校参加的因特网音视频实时研讨会。
据我们所知,国外诸如AccessGrid等类似系统,在因特网上也举行过近百个分会场的音视频研讨会。
我们的研究工作表明:
第一,利用现有的技术手段在单台服务器控制下的实时流媒体协同工作环境,在保证高质量协同工作的前提下,同时支持近200个不同群体间的音视频交互式协同研讨和工作已经接近现有技术的极限。
如果在协同工作中涉及远程设备控制的话,协同规模的局限性更大。
这种协同规模远远不能达到支持区域性或全球范围内大规模高质量、交互式的实时流媒体协同工作的需求。
例如对奥运会这类总量达到几亿人参加,但又分成数千个甚至更多不同兴趣的小规模群体,同时在因特网上边观看、边交流、边协同的需求。
这种协同需求中,具有明显的软件和设备的多重异构性,用户需求和使用方式的多样性和个性化以及使用者参与协同的开放陛和动态性特征。
我们的初步研究实践表明,要真正解决这类问题,需要千台以上分布在不同地域、没有中央控制、采用不同通信系统的服务器的协同工作才能实现。
而这种规模和意义下,甚至比这种规模还小得多的协同机制还远没有解决。
第二,协同工作的另外一个重要作用是促进资源共享,目前在协同过程中的资源共享主要是基于文档的web信息共享。
这远远不能满足协同过程中对信息共享的需求,尤其是对实时流媒体信息的共享需求。
现有的资源共享技术不能够实现诸如虚拟视频合成、自动流媒体导播、会议流媒体内容查询等需求。
这涉及大量有关音视频等多媒体信息资源的交换和共享问题以及基于脚本的多媒体信息资源的交换和共享,包括信息的检索、编辑和使用,是高质量的多媒体信息资源共享的基本要求,这方面的研究工作和关键技术也还远未取得突破。
已有的计算通信理论,如CCS、CSP等,对协同行为的研究都局限在微观层面上,这些理论所得到的结论不足以解释海量信息系统的协同现象,所以不能从根本上解决海量信息在宏观层面协同行为中有关服务质量、正确性、可靠性、有效性的关键科学问题。
为此我们必须建立新的协同理论并取得实现技术的突破。
总之。
海量信息的协同性问题,特别是宏观层面的协同问题已经成为提高海量信息系统服务质量的关键,对信息科学的发展具有重要意义,但不论是理论还是实践都没有根本解决。
它既是一个亟待解决的重大基础研究问题,叉对增强我国信息产业的核心竞争力具有长远影响。
1.1.2海量信息的可生存性
本项目所涉及的可生存性(survivablity)来源于人类社会的若干群体协同完成某项共同任务(mission)时,在受到自然灾害、瘟疫和战争等突发事件的冲击之下,修补受损组织机构和功能,恢复和保持协同生存的能力。
海量信息系统的可生存性是指受到网络攻击、发生事故、出现故障以及系统规模扩展过速的冲击下,部分组件受损、系统仍能继续完成任务的核心活动、并恢复某些受损功能的行为特征。
海量信息系统协同任务的可生存性问题是海量信息可生存性的核心问题。
例如某个大型天气预报网格在进行某地区天气预报时,受到病毒攻击,致使网格上多个服务器、存储设备出现故障甚至瘫痪,但是该系统仍能利用经受住攻击的服务器形成新的网格拓扑结构,根据预设策略,继续进行数据收集及有效计算,完成全部或者事先确定的关键地区的天气预报,那么这个系统对于病毒攻击具有可生存性。
海量信息的可生存性是一个尚未解决的科学问题,它与信息安全,特别是大型分布式信息系统的信息安全紧密相关。
海量信息的可生存性可以分为微观和宏观两个层面,而且海量信息可生存性具有内在性、概率性和集成性特征,使得它与信息安全具有本质的区别。
注重信息安全性的研究已成为海量信息系统的研究热点之一,而可生存性的理论与技术研究尚在初创阶段,应大力开展可生存性研究。
总之,海量信息的可生存性问题是关系到先进网络及其应用的和谐持续发展的一个重大基础研究问题,现已成为当前国际学术界的一个新兴研究方向,它的解决对于信息科学的发展具有重要影响。
基于上述分析,本项目认为充分理解和认识海量信息的协同性和可生存性,解决与之相关的基础科学问题,建设具有良好协同性和可生存性的海量信息系统,使之更好地为社会服务,是建立和谐、稳定、安全、可持续发展的信息社会所必须解决的重大问题。
经过多年的发展,我国已经成为信息基础设施和海量信息系统应用的大国,所以从现在开始启动海量信息的协同性和可生存性问题的基础研究和实践探索,对于提高我国信息产业的核心竞争力,保证信息社会的可持续发展,指导我国信息基础设施的规划建设,提高我国的信息安全与防御能力,使我国在信息科学的基础研究和高技术发展方面进入世界领先行列都有重要意义。
1.2研究目标
本项目的总体目标是解决海量信息的协同性和可生存性相关的科学问题。
包括从信息科学角度,发现海量信息传输所遵从的微观和宏观规律,建立基于内容的海量信息传输理论,解决海量信息协同性和可生存性问题中海量信息传输质量问题;建立具有统计特征的基于内容的信息传输、协同、同步的语义问题,构造新的协同爵义理论;建立海量信息系统在微观和宏观层面上关于可生存性的数学模型,对可生存性的内在性、统计性和集成性进行形式化描述,研究可生存性与协同性的关系,建立海量信息可生存性理论;设计与海量信息协同性和可生存性相关的软件体系结构、算法和软件开发方法,提出切实可行的提高海量信息软件系统协同能力和可生存能力的软件解决方案;建立研究海量信息协同性和可生存性的实验环境,对相关理论研究成果进行验证。
取得一批具有原创性的研究成果,部分课题的研究取得重大突破并达到或者接近国际领先水平,推动计算机科学基础理论研究的进一步发展,初步形成海量信息协同性和可生存性的完整理论体系,为我国因特网应用技术突破和信息产业的可持续发展提供基础研究支持。
本项目的研究目标包括:
(1)在基础理论方面,本项目将逐步形成海量信息协同性和可生存性的理论体系,包括建立基于内容的海量信息传输理论;通过试验手段和统计方法,发现信息传输的统计规律;建立海量信息的协同语义理论;设计海量协同网络的自组织、处理和传输的高效、可靠的算法和实现机制;建立海量信息可生存性理论框架;研究可生存的海量信息系统中出现算法的设计方法。
(2)在软件结构和方法研究方面,本项目将设计相应算法和软件实现机制,提出切实可行的海量信息系统协同性和可生存性问题的软件解决方案,包括:
提出支持海量协同的基础软件支撑结构,设计并实现能以P2P方式运行的协同服务网络平台,设计和实现面向内容的协同的开放式试验软件;设计可生存的海量信息系统软件开发方法,建立海量信息系统软件可生存性的需求分析方法,设计可生存性的评估分析框架和推理方法,设计用来增强系统可生存性的保障策略,提出在软件开发不同阶段处理可生存性策略的技术和实现机制,提出可用来验证可生存性的测试技术。
(3)在试验和验证平台方面,建成具有与国际接轨的先进水平的实时协同可生存的海量信息系统试验和验证平台,提供研究海量信息系统协同性和可生存性的试验和测试手段以及环境。
支撑典型示范性可生存海量协同系统的应用。
1.3工作基础和条件
项目参考了北京航空航天大学、华东师范大学、复旦大学等在我国计算机科学与技术方面处于领先行列的单位的研究工作。
参访单位包括1个国家重点实验室、2个部级重点实验室等重要研究基地。
以上各单位研究方向齐全,科研设备先进,是我国信息领域科学研究和高新技术发展的重要基地。
他们研究力量雄厚,科研成果丰硕,是优秀青年学者聚集之地,与国际著名大学和研究机构有着广泛的联系和合作。
项目建议人和主要协助人长期从事与本项目有关的研究,他们先后承担了国家自然科学基金、国家重大基础研究发展规划、九五攀登计划、国家高技术研究发展计划和国家科技攻关计划等多个科研项目。
在网络环境下海量信息的组织与处理的基础理论和关键技术、网络与信息传输、大规模信息系统、软件工程、安全理论等方面所取得的成果均处于国内领先行列,部分成果接近或达到国际先进水平。
在基础理论研究方面获得国家自然科学二等奖1项,在高技术研究方面获得国家科技进步二等奖2项,省部级科技进步一等奖、二等奖多项。
与本项目相关的研究工作和主要成果如下。
1.网络环境下海量信息系统建设的广泛实践
自1999年开始,在承担已经结题的国家重大基础研究规划(“973”计划)项目“网络环境下海量信息的组织、处理的理论与方法研究”(G1999032700)的研究工作时,进行了大量网络环境下海量信息系统设计、研制、管理和维护的实践工作,明确了海量信息系统的物理特征、规模特征和核心软件系统等性质。
(1)国家某中心网络管理系统。
该中心的业务系统是对我国因特网行为进行监测的系统,是我国现有最大的海量信息系统之一,其系统规模在世界上也是少有的。
该业务系统的管理、监控系统是由实验室完成的。
这类系统的特征是:
管理的设备数量众多,地理分布广;众多的用户从不同的地点对系统进行访问;长期积累的监测数据必须使用分布式海量存储设备存储;系统响应时间要求高。
实验室完成的该中心业务系统的管理系统监控的是一个A类子网,地址空间超过一千万。
目前实际监控的设备包括约300台路由器(端口数近4000个);约200台交换机(端口数近7000个);约1500台应用服务器(网卡数约2300个);应用进程约13000个。
最小性能采集周期是5分钟,每日采集性能数据量是l6~18GB(约2500万条记录)。
如图1-1所示。
图1-1系统示意图
图1-2按节点前缀着色的IPv6骨干网络拓扑图
图1-3按链路带宽着色的IPv6骨干网络拓扑图
(2)全球IPv6网络性能监测系统。
IPv6的全面应用是因特网今后发展的一个重要方向,也是当前学术界和产业界研究的热点课题。
实验室已经独立设计完成了全球IP而网络的性能测量系统。
该系统能够完成对全球IPv6骨干网络拓扑结构和IPv本地链路拓扑结构的自动发现,在此基础上对发现的全球IPv6骨干网络中绝大部分链路的带宽、往返延时、丢包率等网络信息传输的性能指标进行测量。
目前该系统已经能够对全球范围内的IPv6网络的拓扑连接情况和实际的流量进行有效的测量,如图1-2和图1-3所示。
根据官方发布的统计数据,全球IPv6骨干网络的As域和地址前缀共324个,该系统进行自动拓扑发现的结果是发现了AS域和地址前缀306个,发现骨干路由器约1900台,发现覆盖率约94%。
在全球进行一次IPv6网络的拓扑发现耗时约45分钟。
同时通过对全球IPv6网络流量的测量工作,能够直接对网络的性能进行监测。
(3)新一代因特网实时多媒体公共服务环境。
围绕设计和实现这种服务环境的关键技术进行了深入研究。
这一类系统的特点是:
众多的用户地理分布广泛;系统实时性要求高;对海量流媒体信息传输的质量要求高;支持对各种大型仪器设备的远程操作;并发的进程数量多。
在公共服务环境的体系结构方面,针对目前因特网上缺乏大规模协同应用体系结构的问题,实验室率先提出了一个功能分层、webservice封装和物理分布的——“面向服务的海量多媒体实时协同体系结构”,并解决了因特网环境下进行实时多媒体交互涉及的可靠群组通信、可靠组播传输、异构系统互联等关键技术问题。
在此基础上开发了“大规模实时多媒体交互系统Admire”、“电子显微镜远程协同实验平台”、“企业级多媒体协同工作环境MV,sion”等一系列公共、学科专用的协同工作系统。
图1-4包含4个截屏图,分别显示了通过使用Admire系统,参加AccessGrid网络协同联盟,实验室与美国、德国、日本等60余所大学和实验室建立了经常性的学术联系的情况,以及将Admire系统应用于教育部实时多媒体会议系统、科技部实时多媒体会议系统等会议系统的建设以及远程医疗等系统中的使用情况。
(a)通过Admire系统参加AccessGrid网络协同联盟(b)通过Admire系统与国外大学和实验室进行学术合作
(c)以Admire系统为基础的应用于教育部、科技部实时多媒体会议(d)电子显微镜远程协同实验平台
图1-4Admire系统具体应用截图
通过这些积极参与典型的海量信息系统的实践工作,实验室对海量信息系统的认识不断
深入,给出了海量信息系统的定义和具体特征。
海量信息系统的物理特征是:
①有在地理上分布在不同节点的超级计算机、高性能服务器;②有分布式海量存储设备;③有众多的网络用户;④可以进行仪器设备等的远程控制;⑤设备之间通过高速网络连接。
海量信息系统的规模特征是:
①在信息的存储与组织方面,系统的数据量在1012字节(TB)以上;②在信息的传输方面,传输的数据流量在107字节/秒(10MB/s)以上,并发进程在104个以上;③在管理方面,被管理的服务器在103台以上,管理数据量在109字节(GB)/日以上。
具有上述规模的系统,就可以称为海量信息系统。
海量信息系统是在先进网络环境下拥有海量信息、运行着海量进程、执行海量通信,具有上述物理和规模特征的复杂应用系统。
海量信息系统的核心是管理和组织海量信息,把这些信息用于服务、保证系统正常运行的软件系统。
可以分为三三类:
①海量信息系统的管理系统,通常简称为网络管理系统;②海量信息存储和服务系统;③用户服务环境。
2.大型复杂软件系统的版本理论
经过“973”计划项目“网络环境下海量信息的组织、处理的理论与方法研究”的研究工作,实验室在海量信息软件系统的基础研究方面取得了系统和原创性成果。
在经典数理逻辑的基础上,提出形式理论版本序列与版本序列极限的理论,提出了版本修正的形式演算系统R-演算,证明了R-演算的可靠性、完全性和可达性。
提出了收敛版本序列的过程模式理论,提出了过程模式的收敛性、业务逻辑与极限运算的可交换性.及保持极限理论的极小性。
提出并证明了归纳学习的收敛和可交换模型,证明了一批学习与分析算法的收敛性、可交换性和极小性。
软件版本进化的理论可以很好地刻画海量信息系统软件的组织结构和软件开发过程,项目组成功地将其应用于基础设施信息网络管理系统软件生产平台技术的研究之中.取得了非常突出的成果。
该成果成功应用在北京、天津、浙江、海南等20个省市基础设施网络管理系统的建设中,创造了过亿元的经济效益。
并获得2004年度国家科技进步奖二等奖。
3.海量信息计算的统计特征研究
海量信息系统中的若干关键问题,如进程调度和资源分配等归结为约束满足问题(简称CSP)。
CSP是一个典型的NP完全问题,其中布尔表达式的可满足性问题(SAT)是CSP的一个特例。
目前制约计算机科学、自动控制和系统工程等学科发展的数千个NP完全问题均可归约到CSP。
由于NP完全问题的难解性,因此,如果信息系统的规模太大,则其进程调度和资源分配将是一个非常困难的问题。
从数学上来看,海量信息系统的进程调度和资源分配可抽象为拥有海量变元的CSP计算问题。
因此,研究CSP等NP完全问题在海量计算下的统计特征是一个既重要又有意义的课题。
近年来计算机科学的重要进展之一是:
发现了NP完全问题在海量计算下的一个非常重要的统计特征即相变现象。
在CSP相变现象的研究中,人们遇到了很大的困难和挑战,美国学者Achlioptas等人证明了当CSP的规模充分大以后,经典CSP模型是平凡的.根本不存在相变现象。
不仅如此,这个结果还说明了以经典CSP模型具有相变现象为前提进行研究是没有意义的(包括数十篇由著名的计算机科学家和物理学家所撰写的论文都受到了此结果的影响)。
由于CSP既是一个典型的NP完全问题,又是海量信息计算的关键问题,因此,CSP计算是否具有相变现象对于研究NP完全问题的难解性质和海量信息系统计算的统计特征至关重要。
项目组对此进行了系统而深入的研究,取得了如下成果:
(1)提出了非平凡的CSP模型,称为RB模型,并证明了RB模型具有精确的相变
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 海量 信息 协同 生存 理论 实践 研究