数据处理平台解决方案设计.docx
- 文档编号:1734264
- 上传时间:2022-10-23
- 格式:DOCX
- 页数:10
- 大小:476.67KB
数据处理平台解决方案设计.docx
《数据处理平台解决方案设计.docx》由会员分享,可在线阅读,更多相关《数据处理平台解决方案设计.docx(10页珍藏版)》请在冰豆网上搜索。
数据处理平台解决方案设计
数据处理平台解决方案设计
数据采集、处理及信息结构化相关技术
全面的互联网信息采集:
支持静态页面和动态页面的抓取,可以设置抓取网页深度,抓取文件类型,以及页面的特征分析和区块抓取。
支持增量更新、数据源定位、采集过滤、格式转换、排重、多路并发等策略。
-实现企业内外部信息源的自动采集和处理,包括像网站、论坛、博客、文件系统、数据库等信息源
-海量抓取:
根据信息不同来源,有效的进行海量不间断抓取,而且不干扰原有业务系统的正常运行
-更新及时:
信息采集之后,对于相应的信息更新,要具备灵活的机制,保证内容的质量与完善;
-结合权限:
结合具体项目的流程,相应的文件都有不同的权限,抓取的时候,能够获得相关权限,以此在前台提供知识服务的同时,满足对权限的控制;
-支持录入多种格式的知识素材,包括文本、表格、图形、图像、音频、视频等。
-支持批量上传多种格式的文档,包括txt、html、rtf、word、pdf、MP3、MPEG等。
-支持采集文档里面的内嵌文档抓取(如word文件里面嵌入visio的图片文件,word的图文框等);
-支持对各种压缩文件、嵌套压缩文件的采集;
-支持导入Excel、XML、Txt等多种数据源,导入后可自动解析数据源中的知识条目。
-配置好之后可以完全自动化的运行,无需人工干预;
-用户可指定抓取网站列表,可进行自定义、删除、更改等操作;
-用户可自定义开始时间,循环次数,传送数据库等参数;
-自动检测网页链接,可自动下载更新页面,自动删除无效链接;
-可设置基于URL、网页内容、网页头、目录等的信息过滤;
-支持Proxy模块,支持认证的网站内容抓取;
-可分布式部署,扩展性强;
-软硬件配置及预算符合本平台实际需求。
信息智能处理的智能服务
智能化信息资源搜索和支持服务系统,对内、外部信息资源整合,提供丰富的应用功能,包括自动采集、智能搜索、自动分类、聚类分析、信息关联、个性推送等,充分发掘内外部信息资源的价值,支持海量数据和多维度信息应用。
实现数据采集、信息检索、内容自动关联、不同信息的分类聚类的智能信息服务体系。
一、非/半结构化数据处理(Hadoop)
平台由信息自动采集、信息管理、信息分析、信息智能处理、信息服务等层次组成:
数据源层:
主要包含内外部信息系统。
(互联网,内部数据库系统)等;
连接器层(数据采集层):
主要负责对所监控的网站、论坛、博客等互联网信息和数据库、文件(包括Txt、Rtf、Doc、PDF、HTML、XML、WVM、RM等)、大型应用系统等内部信息进行数据采集,所有的过滤策略、周期设定、周期更新、格式处理、编码转换等操作都在此层来进行实现。
特别数据采集模块能够采集境外屏蔽网站信息。
智能数据操作层:
负责所有的信息处理,采用智能处理技术,对采集到的信息进行自动分类、规整、聚类、分析、标引等操作,供应用层的业务功能模块所调用。
应用层:
主要实现业务功能,是用户界面部分。
通过调用核心处理层的各个功能模块,来实现自动监控、主动监测、趋势分析、自动报警提示等功能。
核心处理层,是整个系统建设的关键。
内容智能处理平台提供的智能信息分析技术,不仅支持关键词技术,也支持自然语言的概念匹配技术,为上层的业务应用功能提供强有力的技术支持。
信息智能采集分析系统采用多层结构,实现客户机只存放表示层软件,应用逻辑包括事务处理、监控、信息排队、Web服务等采用专门的WebService,后台是数据库。
在多层分布式体系中,系统资源被统一管理和使用,用户可以通过统一门户透明地使用整个网络资源,管理简单、易维护、易升级。
各功能层涉及技术需求说明
-智能检索:
支持海量的信息检索,千万级用户访问。
具有自然语言检索,自动抽取上下文摘要/内容摘要,检索结果自动分组和自动生成相关内容。
-自动分类:
使用领先的智能分类器对信息自动分类,分类器的灵活性可以精确地根据非结构化文本中的概念进行分类。
它保证根据内容对所有的数据进行最准确的分类。
支持自定义的多级可扩展分类体系。
-聚类分析:
聚类、趋势分析自动地依其掌握的专家知识体系,对大量的杂乱信息内容进行纵向分析、横向比对。
纵向分析,提取概念,形成形象直观的聚类分析图;横向比对,发现趋势,形成趋势走向图。
-自动关联:
关联服务是平台提供的最核心服务之一,也是最基本的内容服务。
所有被平台管理的资源,无论是数据库资料,还是网页数据,或者内部办公文档,都能够彼此产生动态的关联,无需手工的链接维护。
-自动排重:
利用信息文档的内在特征进行智能分析,判断信息重复性,降低信息冗余度。
-内容分布分析:
独有的概念模式匹配技术和计算模型,可以对一段内容、整篇文章、概念组、信息分类等条件进行分析、抽取,并在多个信息源中进行分析,形成数据、分析图形及对应的文档。
-个性化监管:
平台提供动态的个性化跟踪服务,除了用户自己维护的档案之外,系统在后台自动监控用户的行为与监控的网页,分析监管人员的工作内容,平台根据监管内容实现动态的智能信息推送服务。
二、并行数据仓库(PDW)
一体机体系结构概述
该一体机是一种多机架系统,包括一个执行控制功能的控制机架和一个或多个存储用户数据并处理并行查询的数据机架。
您可以使用从1/4数据机柜起,根据工作负荷或数据量的要求,可以将其升级到一个完整的机柜,最多可升级到6个机柜。
PDW体系结构的各组件如下图所示:
PDW内部的软件体系结构如下图所示:
PDW通过虚拟化的技术,将PDW的各个功能组件分别部署在不同服务器的虚拟机中
(1)管理服务器
管理服务器上承载着整个PDW集群管理的虚拟机节点,包括控制节点(CTL),管理节点(MAD01),虚拟机管理(VMM),PDW域控制器(FABAD)
控制节点(CTL):
客户端通过“控制”节点访问PDW平台,该节点将整个基础结构抽象为一个单独的数据库并提供了单独的管理点。
PDW支持基于ADO.Net、OLEDB和ODBC的连接。
控制节点为一体机提供了控制、管理和用户界面功能。
它充当了用户与计算节点之间的界面。
一种称为“AdminConsole”的基于浏览器的实用工具为该一体机提供了全面的监控。
MPP引擎在控制节点中运行,它会分析传入的请求。
它利用数据智能来创建一体机范围内的并行查询计划并协调一体机内的查询执行情况。
一体机范围内的元数据和数据库配置数据也存储在控制节点内。
DMS(DataMovementService,数据移动服务)作为一种服务在控制节点中运行,它负责一体机各节点之间的数据传输。
它会处理需要在节点之间传输数据的查询操作,它的主要功能是优化数据传输速度,从而能够提高性能。
控制节点作为SQLServer的一个实例运行,它可以管理一体机的元数据。
管理节点(MAD01):
管理节点负责管理一体机中的硬件和软件。
它提供了安全管理、运行情况和性能监控功能。
它还可以执行维护活动,如利用WindowsSoftwareUpdateService(WSUS)接收软件更新程序并将软件更新程序部署到一体机的所有节点上。
它存储着镜像文件,可在某个节点需要重新建立镜像时使用;它还装有PDW配置管理器,可进行配置管理。
虚拟机管理(VMM):
PDW所有管理以及负载活动均在虚拟机当中进行,通过虚拟机管理节点对整个集群内不同角色的虚机进行集中管理。
PDW域控制器(FABAD):
PDW集群内的域控制器。
(2)计算服务器
计算节点:
计算节点服务器是该解决方案的存储功能和可伸缩性的一个基本组成部分。
每个计算节点都作为SQLServer的一个实例运行,如其名称所示,大部分计算和查询操作都在此节点内执行。
计算节点中的数据机架装载着存储用户数据库并执行并行查询操作的硬件。
每个用户数据库都分布在多个SQLServer数据库实例之间。
您可以使用多个数据机架,并通过添加数据机架来提高存储量和性能(如上文所述)。
它以无共享体系结构为基础,不与其它计算节点共享存储器、CPU或内存。
每个机架都有一台备用服务器,它配置为被动式MSCS(微软群集服务)群集服务器。
如果某个计算节点服务器无法使用,其存储阵列将会转移到备用服务器。
计算服务器通过SAS直连JBOD磁盘组,采用WindowsStorageSpaces技术来处理磁盘的镜像和热备。
每个计算服务器中部署一个计算节点的Hyper-v的虚拟机。
(3)高可用热备服务器
根据应用要求在每个PDW机柜中提供1个或以上热备节点,提供高可用(HA)服务。
当机架中的任意一个物理服务器发生故障时,该服务器在很短的时间内自动接管故障服务器上的服务。
PDW中的故障转移通过Hyper-V技术实现,同时通过WindowsStorageSpaces技术来处理磁盘的镜像和热备
(4)其他服务器节点(可选)
数据装载区:
装载区可支持持续的数据仓库加载。
通过DWLoader加载平面文件数据。
也可以安装SQLServer来创建暂存数据库,以便将数据加载到PDW中。
第三方软件和工具(ETL或其它)可下载到装载区并在此安装。
备份节点:
它是PDW的一个可选组件。
其存储容量相当大,除了备份功能之外,它还可以用作暂存区,作为对登陆区的补充。
确切地说,它可以在大量历史数据的初始加载过程中使用。
备份文件可以从此处复制到非一体机存档位置。
(5)服务器间的网络连接
依据网络的流量特性,PDW服务器集群内节点间采用了两种不同的连接方式,以提高系统的性能和稳定性:
支持万兆的以太网络:
提供PDW集群内服务器的管理、控制以及对外的连接访问
支持高达56GB/s的InfiniBand网络:
提供控制服务器及计算服务器间高速的数据访问连接
(6)集中地管理
PDW一体机可通过其附带的基于网站的管理控制台进行管理。
通过此工具,数据库管理员可以查看目前正在运行的查询(在单独节点的分布/分区级别也提供了统计数据),监控正在进行的加载,查看历史查询并进行其它相关操作。
管理节点还带有群集和自动存储管理器,可对PDW进行高级管理。
这样,存储管理操作就可以自动进行,让管理员能够通过基于网站的高级管理控制台(包括警报)和HPC工具(已经过预配置,可监控整个解决方案)对存储情况进行全方位的监控。
另外,通过合并的SQLServerDynamicManagementViews(DMVs),数据库管理员可以使用标准的SQL查询从整体上监控PDW系统的状态,这对于批处理流程的自动化是最理想的。
存储管理不会带来额外的费用。
图:
AdminConsole示例
与其它所有微软产品一样,PDW也可以通过系统中心操作管理器(SystemCenterOperationsManager)进行监控和操作。
我们提供了一个管理包(ManagementPack),它具有以下功能:
发现PDW一体机。
对SQLServer一体机的基本管理包进行快照处理,以便在所有一体机之间提供一致的发现模型。
监控PDW一体机的硬件和软件组件。
能够跨越硬件和软件组件汇总整体的运行状况信息。
能够检测和监控属于不同PDW群集的节点(多机架支持)。
提供了一体机的每个运行状态的详细信息,能够更迅速地解决问题。
作为配置文件运行,安全地连接到多个PDW一体机,以便进行发现和监控操作。
自定义视图直观地表示了PDW一体机的层次结构(包括硬件和软件组件)。
视图一共有三种状态,包括:
一体机视图–提供了整个一体机的运行状况及其各个节点的高级信息。
一体机节点–表示每个节点的运行状况及角色的视图。
警报视图–IT操作人员可以使用该视图来查看警报并采取适当的措施。
自定义的电子邮件模板提供了关于警报的详细信息。
三、流数据处理(CEP)
利用Microsoft
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据处理 平台 解决方案 设计