1、申请学位级别:硕士学 科 类 别 :工学学科专业名称:计算机软件理论 论文提交日期:2012 年 6 月 论文答辩日期:学位授予日期:2012 年 7 月 答辩委员会主席:评 阅 人 :东 北 大 学2011年6月A Thesis for the Degree of Master in Computer Software and TheoryCommunity Structure Detecting and Visualization of Multiple GranularityBased on Internet Network TopologyBy Yu Qun Supervisor: P
2、rofessor Xu jiuqiangNortheastern UniversityJune 2012独创性声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。 学位论文作者签名:日 期:学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论
3、文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:半年 一年 一年半 两年学位论文作者签名: 导师签名:签字日期: 签字日期: 摘 要近年来,复杂网络的社团研究相对比较成熟,可针对以Internet拓扑结构为基础的社团特征研究至目前为止还是相对不足,并且没有很好的从Internet特有的结构特征入手。系统的社团结构与其功能息息相关,对于Internet社团结构特征的深刻理解,可以帮助人们发现互联网新的功能单元、理解其复杂的网络特征结构、化简网络结构、寻找防治互联网病毒传播新策略、网络控制等。针对互联网特有的结构特征,如Internet网络边缘树状结构
4、特征、Internet的链状特征(海底光缆、网络专线、BGP外部路由线路)、 网络中局部区域高核数节点相互聚类特征、中心节点特征等,本文在互联网社团研究的过程中,通过对比传统的复杂网络的社团发现算法,总体上运用了分而划之、合而聚之的思想,分别设计了层次折叠收缩算法、链状探测算法、高核节点聚类特征探测算法、中心节点算法,通过这些算法,大致可以找出Internet基本的较小的功能组织结构,比如,层次折叠收缩算法可以探测到Internet网络边缘树状结构特征组织,链状探测算法可以探测到Internet网络专线、BGP外部路由线路等链状的结构特征组织,高核节点聚类探测算法可以探测到网络中局部区域高核数
5、节点相互聚类特征组织,中心节点算法可以探测到Internet中心节点特征组织。通过这些探测算法,网络中的大部分节点都会被归类到相应的组织结构中去,可是还有一些少部分节点可能不在上述的几种特征组织内,上面的几种有针对性的探测算法就无法把它归类到相应的组织结构内,所以就把这些没有被探测到的每一个节点归为单独的组织结构(便于后续处理)。经过前面几步的处理,一个完整网络拓扑的大大小小的组织结构就呈现出来,下一步就需要把这些大大小的网络组织结构合并成为一个个具有高内聚低耦合特征的社团,这就是合而聚之。可是要使合并后的网络的社团模块度达到最优化是一个NP难题,在时间复杂度和空间复杂度上都比较大,对于具有众
6、多较小组织结构的网络的社团模块度寻优处理,本文设计的小社团合并算法采用贪婪算法来寻找局部最优的模块度,最终一个具有典型社团结构划分特征的网络拓扑浮出水面。本文设计的社团发现算法由一组多粒度社团发现算法混合而成,称之为105算法。目前在IPV6网络的社团发现方面: 就社团划分质量的主流衡量标准模块度而言,105算法微弱于fast unfolding of communities in large networks(简称FUOCILN)算法 ,在模块度评价方面,FUOCILN是目前国际上最优秀的算法这一,这也从侧面印证了105算法在模块度评价标准上的优秀性;就多粒度特征而言,105算法发现的社团内
7、部包含多种不同粒度的互联网基本拓扑结构,比如链状、高核聚类状、局部树状、中心节点状等,而FUOCILN算法发现的社团内部只有节点信息,105算法的社团内部信息容量要远大于FUOCILN。对于互联网的社团可视化问题,传统的一些可视化算法仅仅只能做到整个网络拓扑级别的可视化,社团结构的可视化特点并不明晰,针对这种问题,本文在参考传统节点布局方式的基础上全新构建节点布局,这种布局分为两个层次:整个网络的社团之间位置布局、每个社团的内部节点位置布局。其中,第一个层次又分两个小层次:其一,根据物理类比法,模拟物理系统环境,全自动布局社团节点;其二,在第一步完成之后,采用动态交互布局模式,如果第一步布局有
8、不合理的地方,可手动调节社团节点位置。由于大规模数据的复杂性以及考虑了突出社团特征等问题,这必将牺牲画布资源。为此,本可视化算法开辟一个新的画布资源,采用射线布局算法显示某个特定社团内部节点的拓扑结构。鉴于本可视化算法的特点,称之为visualCommunity算法(简称VC)。VC算法能够合理清楚的可视化互联网的社团结构特征。关键词:Internet拓扑结构;社团发现;多粒度;社团可视化Community Structure Detecting of Multiple Granularity and Visualization AbstractThe community studies of
9、 complex network have relatively matured, but the study for community based on characteristics of the Internet topology so far is relatively lacked, and not starts from the Internets unique structural features. Community structure of the system is closely related to the functions. a deep understandi
10、ng of the characteristics of the Internet community structure can help people find the Internets new functional unit, understand the complex network characteristics of the structure, simplify network structure, look for a new strategy which combats Internet viruses to spread and network control. As
11、to the unique structural features of the Internet, such as tree feature of the edge of the Internet network, the Internet chain feature (submarine cable、 network、BGP external route), the clustering feature of the high core nodes, the central node feature. This paper in the course of the study of the
12、 Internet community compares to the traditional complex network of community detecting algorithms, use the dividing and getting together methods and design the level folding contraction method、the chain-detection method、node clustering feature of the high core detection method、the central node metho
13、d. These methods can be used to roughly find the Internet smaller functional organizational structure, for example, the level folding contraction method can detect the edge of the tree structure feature organization of the Internet network, chain detection method can detect the structural method org
14、anization of the Internet submarine cable, network, chain characteristics organization like external route of BGP, high core node clustering detection method can detect organization with the high core nodes clustering with each other feature in some areas , the Center node algorithm can detect the f
15、eature organization of the Internet center node. Through these detection method, most of the network nodes will be classified to the appropriate organizational structure, but some small part of the nodes may be not in above several features organization. The above targeted detection method unable to be classified to the appropriate organizational structure, so they are classified as a separate organizational structure (to facilitate in the follow-up treatment). After p