网络爬虫系统规划方案.docx
- 文档编号:29311857
- 上传时间:2023-07-22
- 格式:DOCX
- 页数:16
- 大小:547.09KB
网络爬虫系统规划方案.docx
《网络爬虫系统规划方案.docx》由会员分享,可在线阅读,更多相关《网络爬虫系统规划方案.docx(16页珍藏版)》请在冰豆网上搜索。
网络爬虫系统规划方案
网络爬虫系统设计方案
一、引言
1.1编写目的
网络爬虫系统最新一套网络爬虫系统,本设计手册是针对该系统进行描述的基本手册,旨在描述该爬虫系统的基本架构和组件。
1.2项目背景
网络爬虫系统是设计为了配合公司大数据业务发展的需求,解决大数据业务的数据采集问题而开发的一套系统。
系统的主要功能是爬取上市公司的财务报表数据、上市公司的重大公告数据、上市公司的年报数据和国家关于上市公司的政策法规数据。
二、总体设计
网络爬虫系统总体上采取组件化设计方法,爬虫系统架构设计如下图所示:
2.1需求概要
信息同步子系统对接用户原有第三方数据源,定期从用户第三方数据源中同步省属企业数据,内部财务结算数据。
该子系统的工作流程如下图所示:
大数据存储子系统负责为网络爬虫系统提供针对海量多元数据的快速存储方案和相应的智能管理服务。
该系统统一提供对包括结构化关系型数据、半结构化以及非结构化非关系型数据和文件(块)的底层存储方案设计,保证为不同类别文件的高速存储和实时交互提供稳健的实现环境,具有良好的容错机制和灾难恢复机制;此外,该系统为存储数据提供智能一体化的管理服务,除了对文档记录进行增加、删除、查询和修改等日常维护操作外,该系统实现对海量文档的动态信息提取,并实现基于元数据、关键词、段落、文档以及语义等高级条件的精准和模糊检索服务。
此外,该系统可根据用户定义的需求对海量数据进行自动可视化和报表生成。
常见的多元数据如下表所示,其中大数据存储子系统存储的结构化数据、半结构化数据以及非结构化数据(块数据)是面向检索和计算的,提供快速、高效的内容检索以及包含的数据的计算、统计、分析和挖掘等处理;而大数据存储子系统的非结构化数据(文档数据)是面向简单检索的,主要提供文件粒度的内容的读取和写入,即持久化和反持久化。
2.2数据类型
类型
描述
结构化数据
具有固定结构的数据,包括xml文档以及来自各类关系型数据库管理系统的导出数据等
半结构化数据
不具备严格模式的数据,包括“键-值”对类型数据等
非结构化数据
文本文件、富文本文件
txt、rtf
办公文档、文字输入文件
wps、doc、docx
电子表单、表格数据
xls、xlsx
演示文档文件
ppt、pptx
外部获取的各类参阅文件
网页文件
Html、jsp、asp、php
扫描件、图片文件
jpg、bmp、png
音频文件、视频文件
mp3、avi、mpg
其他文件数据和块数据
2.3数据存储
(一)结构化数据存储
功能
描述
基本功能
库管理
支持关系数据库的创建、删除
表管理
支持数据表的创建、删除和模式修改
记录管理
支持数据记录的创建、删除和修改操作
记录检索
支持数据记录定位、结构化查询、遍历数据库等操作
索引管理
支持对数据域进行索引创建、删除及修改
智能管理
元数据
支持对结构化数据中提取的元数据进行存储和交互,元数据属性包括时间、空间和数据大小等
分析结果
支持对结构化数据处理分析的结果进行序列化存储,包括数据分析模型、数据预测模型、训练后的分类器以及数据内部存在的关联关系等
可视化
支持对结构化数据降维结果和分析结果进行记忆,并根据实际需求对记录进行提取利用
(二)非结构化数据存储
功能
描述
基本功能
记录管理
支持数据记录的创建、删除和修改操作
记录检索
支持数据记录定位、结构化查询、遍历数据库等操作
索引管理
支持对数据域进行索引创建、删除及修改
智能管理
元数据
支持对结构化数据中提取的元数据进行存储和交互,元数据属性包括时间、空间、数据大小,以及更丰富的作者、机构名称、议题等
分析结果
支持对非结构化数据处理分析的结果进行序列化存储,包括主题模型、文本分析模型、内容检测模型、训练后的分类器以及文档间命名实体存在的关联关系等
可视化
支持对非结构化数据降维结果和分析结果进行记忆,并根据实际需求对记录进行提取利用
(三)块存储
功能
描述
分区管理(创建、删除、移动、修改)
支持创建、删除、移动、修改块分区
块管理(创建、读取、删除、修改)
支持创建、读取、删除、修改块文件
(四)分布式文件存储
功能
描述
目录管理(创建、删除、修改、枚举)
支持创建、删除、修改、枚举文件目录
文件管理(创建、删除、修改、读取、枚举)
支持创建、删除、修改、读取、枚举文件
大数据存储子系统的核心流程如下图所示:
数据存储层负责海量结构化数据、半结构化数据和非结构化数据的存储,采用了关系数据库、分布式NoSQL数据库、分布式海量数据存储。
主要通过四个接口与外部系统对接,分别是:
(一)JDBC/ODBC等SQL标准接口。
(二)NOSQL接口。
(三)块数据存取接口。
(四)文件存取标准接口,如NFS、POSIX等。
大数据存储层为系统的海量数据提供存储服务,与大数据支撑子系统通过存储接口进行交互,其中结构化数据通过JDBC/ODBC等SQL标准接口存储在关系数据库,部分半结构化数据经过处理后存储在NoSQL,另一部分半结构化数据存储在块数据存取接口,视频、音频等大文件通过NFS、POSIX等接口保存在海量分布式存储中。
根据各个主题数据库及外部信息服务的数据特征,进行分类入库。
数据类型
业务数据
存储方式
结构化数据
省属企业数据
关系数据库
上市公司企业数据
半结构化数据
财经网站数据
NoSQL数据库
政策数据
法律法规数据
公告数据
参阅材料
新闻
非结构化数据
文件
分布式块存储
视频
分布式文件存储
音频
合计:
2.4数据组织方式
网络爬虫的主题数据库包括省属企业数据、上市公司数据、财经网站数据、政策法律法规数据、新闻舆论数据等。
主题数据库内容组织包括概念组织、逻辑数据和物理数据三个层次:
(1)概念组织层:
按照公司的共识构建概念体系,实现对主题数据库内数据资源的顶层组织。
概念体系由一组概念和概念之间的关系组成,每个概念表达明确的涵义。
一般而言,基于概念体系构建的概念树的根节点对应于主题数据库,而叶子节点对应于逻辑数据库。
(2)逻辑数据层:
每个逻辑数据库整合主题数据库内的同类数据资源,无论它们原本以什么形式保存在什么地方。
逻辑数据库根据专业库的共性内容(对于非关系型数据库而言,应为其元数据的共性内容)建立公共模型,并基于映射关系实现专业库内容的获取,从而达成不同来源的数据资源的集成。
(3)物理数据层:
物理数据层承担存储与提供实际数据的职能,由一系列内容相关的专业库构成,这组资源可能根据内容要求进行了规范化加工整理,并通过与逻辑数据库的映射转换规则建立联系。
根据公司主题数据库管理的数据的类型,本规范将专业库归纳为以下两个类型:
(1)关系型数据库:
建立在关系模型基础上的数据库。
(2)非关系型数据库:
不可关系化的数据,如文件型数据,文档等。
因关系型数据库的整合深入程度高于非关系型数据库,在能使用关系型数据库管理的场合应尽可能使用关系型数据库进行管理。
具体来说:
主题数据库按照领域内科研人员的共识构建概念体系,实现对主题数据库内数据资源的顶层组织和索引。
概念体系按照编制形式,可以分为等级列举式、分面组配式和列举组配式三种。
在上述三种概念体系中,等级列举式概念体系是使用最普遍的。
网络爬虫主题数据库拟采用等级列举式。
等级列举式概念体系将所有的概念组织成一个树状结构,按照划分的等次,逐级列出详尽的子概念。
在这种概念体系中,同一分支的同层级概念之间构成并列关系,而不同层级概念之间构成上下位关系。
例如,国标GB/T13745《学科分类与代码》、用于图书分类的《中国图书馆图书分类法》,都是等级列举式概念体。
对于主题数据库而言,如果所构建的概念体系是等级列举式的,那么,可以将之直接作为本规范所要求的概念树使用;而如果所构建的概念体系是分面组配式的或者列举组配式的,那么,需要在概念体系的基础上构建出等级式层层展开的概念树,以支持主题数据库服务系统中数据资源目录浏览式查询服务的实现。
概念树由一组节点和节点之间的关联关系组成。
节点:
概念树的每个节点应表达一个明确的逻辑涵义;根节点对应于主题数据库的主题概念;叶子节点则一般对应于一个逻辑数据库粒度的概念。
关联:
树中每个节点可以存在父节点和子节点;父子位节点之间的常见抽象主要包括分类、聚集和概括三种:
类:
父节点是子节点的类型,子节点是父节点的对象,子节点对象具有父节点描述的共同特性或行为;聚集:
父节点由子节点组成,子节点是父节点的组成部分,是父节点的成员;概括:
父节点是子节点的超集,子节点是父节点的子集,概括具有继承性。
逻辑数据库:
主题数据库中应包含若干个按照概念体系组织起来的逻辑数据库。
每个逻辑数据库整合主题数据库中一组内容具有共性的数据,主题数据库通过归纳这些数据(对于非关系型数据库的情况,是其元数据)的共性内容形成公共数据模型,并通过建立数据模型与专业数据库之间的映射关系形成关联,从而形成对同类数据在内容层面的整合集成。
这种整合不是对数据简单的物理聚集,而是通过整合后,数据可按具有统一模型的索引库进行联合检索或更深层次的整合应用,为用户提供统一的数据视图,使用户感觉就像使用单一的数据库一样。
逻辑数据库
逻辑数据库公共数据模型包含为了实现公共检索和概览而建立的各专业库应共同具备的数据集合。
对于关系型数据库的情况,这组公共数据集是被整合各专业库数据内容的共有属性;对于非关系型数据库的情况,因为数据整合一般难以深入到数据文件内部,本规范要求非关系型专业库先建立元数据库管理其数据文件,这个元数据库是关系型的。
逻辑数据库的公共数据集应是被整合非关系型专业库中的元数据库的共有属性。
索引库都是关系型的,按照公共数据模型约定的格式建立,并通过抽取专业库中对应的内容形成。
索引库可以利用专业库的系统元数据及专业库和逻辑数据库公共数据模型之间的映射信息自动抽取生成记录。
索引库的主键应符合《TR-REC-017资源唯一标识规范》之“数据唯一标识符”规约。
非关系型数据集的逻辑数据库
物理数据组织:
专业库通过与逻辑数据库的公共数据模型建立映射关系,不同专业库中的内容按照映射转换规则抽取形成符合公共数据模型的索引库,实现数据整合。
主题数据库的数据在物理上不限制其存储方式,可以采用集中式存储也可以采用分布式存储。
主题数据库的数据内容组织主要包括专业库的内容整理和建立映射转换规则两个部分。
专业库往往存在数据质量或结构方面的问题,因此需对专业库内的部分内容加以规整。
数据内容整理的方法包括抽取、清洗、转换、规约等。
规范不强制要求每个专业库必须进行数据整理,以能否按照映射规则形成符合逻辑数据库填充率要求的内容为准。
此外,对于非关系型数据库的情况,如果数据使用的格式不是学科领域常用的数据格式,承建单位应尽可能将其转化为常用的文件格式。
对于非关系型数据库的情况,还应为专业库建立元数据库进行管理,这个元数据库应使用关系型数据库管理,元数据的描述粒度应为文件或文件集合,每条记录应包含访问文件(或文件集合)的指针/地址。
专业数据库内容整理应执行《TR-REC-031建库技术指导规范》、《TR-REC-062技术文档参考规范》、《TR-REC-018科学数据分类规范与分类词表》、《TR-REC-019数据加工增值管理方法》,特别专业库的主键应符合《TR-REC-017资源唯一标识规范》之“数据唯一标识符”规约。
元数据:
在本规范中,为了消除元数据概念的多义性,统一各个主题数据库的相关参建人员的认识,将元数据特别限定为:
描述数据集及其环境特征的数据。
元数据的制定应遵循《TR-REC-013元数据参考模型》的规范内容。
在主题数据库系统中,元数据主要支持以下五类系统管理功能:
●描述主题数据库的内容;
●定义被整合进入主题数据库的数据和主题数据库整合形成的数据;
●记录数据整合形成的映射转换机理;
●集中管理数据集成使用的物理参数;
●客观详实记录数据质量相关活动。
主题数据库建设在技术上涉及到异构数据资源整合,数据管理与服务,元数据的生成和管理、用户认证与授权、服务监控以及专业库、主题数据库、数据中心三者之间的信息交互与通信等方面。
主题数据库的建设任务将分别落实到专业库建设单位、主题数据库牵头承建单位以及数据中心。
通过三个不同层面所提供的功能和服务,最终实现主题数据库内部资源整合服务以及多个主题数据库的统一联合服务。
技术架构和接口规范如下图所示:
专业库与主题库的交互
主题库与数据中心的交互
模块功能模块列表(格式)
序号
功能模块
子模块
备注
1
结构化存储
库管理
支持关系数据库的创建、删除
表管理
支持数据表的创建、删除和模式修改
记录管理
支持数据记录的创建、删除和修改操作
记录检索
支持数据记录定位、结构化查询、遍历数据库等操作
索引管理
支持对数据域进行索引创建、删除及修改
元数据
支持对结构化数据中提取的元数据进行存储和交互,元数据属性包括时间、空间和数据大小等
分析结果
支持对结构化数据处理分析的结果进行序列化存储,包括数据分析模型、数据预测模型、训练后的分类器以及数据内部存在的关联关系等
可视化
支持对结构化数据降维结果和分析结果进行记忆,并根据实际需求对记录进行提取利用
2
非结构化存储
记录管理
支持数据记录的创建、删除和修改操作
记录检索
支持数据记录定位、结构化查询、遍历数据库等操作
索引管理
支持对数据域进行索引创建、删除及修改
元数据
支持对结构化数据中提取的元数据进行存储和交互,元数据属性包括时间、空间、数据大小,以及更丰富的作者、机构名称、议题等
分析结果
支持对非结构化数据处理分析的结果进行序列化存储,包括主题模型、文本分析模型、内容检测模型、训练后的分类器以及文档间命名实体存在的关联关系等
可视化
支持对非结构化数据降维结果和分析结果进行记忆,并根据实际需求对记录进行提取利用
3
块数据存储
分区管理
块管理
4
文件存储
目录管理
文件管理
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 爬虫 系统 规划 方案