1、第一章1.试述信息技术发展史上的3次信息化浪潮及具体内容。 信息化浪潮发生时间标志解决问题代表公司第一次浪潮1980年前后个人计算机信息处理Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度、腾讯等第三次浪潮2010年前后物理网、云计算和大数据信息爆炸将涌现出一批新的市场标杆企业2. 试述数据产生方式经历的几个阶段答: 运营式系统阶段,用户原创内容阶段,感知式系统阶段。3. 试述大数据的4个基本特征答:数据量大、数据类型繁多、处理速度快和价值密度低。4. 试述大数据时代的“数据爆炸”的特性答:大数据时代的“数据爆炸”的特性
2、是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。5. 数据研究经历了哪4个阶段?答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。6. 试述大数据对思维方式的重要影响答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。7. 大数据决策与传统的基于数据仓库的决策有什么区别答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。8. 举例说明
3、大数据的基本应用答:领域大数据的应用金融行业大数据在高频交易、社区情绪分析和信贷风险分析三大金融创新领域发挥重要作用。汽车行业利用大数据和物联网技术的五人驾驶汽车,在不远的未来将走进我们的日常生活互联网行业借助于大数据技术,可以分析客户行为,进行商品推荐和有针对性广告投放个人生活大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周全的个性化服务。9. 举例说明大数据的关键技术答:批处理计算,流计算,图计算,查询分析计算10. 大数据产业包含哪些关键技术。答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。11. 定义并解
4、释以下术语:云计算、物联网答: 云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。 物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。12. 详细阐述大数据、云计算和物联网三者之间的区别与联系。大数据、云计算和物联网的区别大数据、云计算和物联网的联系大数据侧重于海量数据的存储、处理与分析,海量数据中发现价值,服务于生产和生活;云计算本质上皆在整合和优化各种IT资源并通过网络
5、已服务的方法,廉价地提供给用户;物联网的发展目标是实现呜呜向量,应用创新是物联网的核心从整体来看,大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算,大数据分析的很多技术都来自于云计算,云计算的分布式存储和管理系统提供了海量数据的存储和管理能力,没有这些云计算技术作为支撑,大数据分析就无从谈起。物联网的传感器源源不断的产生大量数据,构成了大数据的重要数据来源,物联网需要借助于云计算和大数据技术,实现物联网大数据的存储、分析和处理。第二章1. 试述hadoop和谷歌的mapreduce、gfs等技术之间的关系答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是
6、谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。2. 试述Hadoop具有哪些特性。答:高可靠性,高效性,高可扩展性,高容错性,成本低,运行在Linux平台,支持多种编程语言3. 试述Hadoop在各个领域的应用情况。答:2007年,雅虎在Sunnyvale总部建立了M45一个包含了4000个处理器和1.5PB容量的Hadooop集群系统;Facebook主要将Hadoop平台用于日志处理,推荐系统和数据仓库等方面;百度主要使用Hadoop于日志的存储和统计、网页数据的分析和挖掘、商业分析、在线数据反馈、网页聚类等。4. 试述Hadoop的项目结构以及
7、每个部分的具体功能。答:PigChukwaHiveHBaseMapReduceHDFSZookeeperCommonAvroCommeon是为Hadoop其他子项目提供支持的常用工具,主要包括文件系统、RPC和串行化库Avro是为Hadoop的子项目,用于数据序列化的系统,提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持续性数据的文件集、远程调用的功能和简单的动态语言集成功能。HDFS是Hadoop项目的两个核心之一,它是针对谷歌文件系统的开源实现。HBase是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库,一般采用HDFS作为其底层数据存储。MapReduce是针对
8、谷歌MapReduce的开源实现,用于大规模数据集的并行运算。Zoookepper是针对谷歌Chubby的一个开源实现,是高效和可靠的协同工作系统,提供分布式锁之类的基本服务,用于构建分布式应用,减轻分布式应用程序所承担的协调任务。Hive是一个基于Hadoop的数据仓库工具,可以用于对Hadoop文件中的数据集进行数据整理、特殊查询和分布存储。Pig是一种数据流语言和运行环境,适合于使用Hadoop和MapReducce平台上查询大型半结构化数据集。Sqoop可以改进数据的互操作性,主要用来在H大哦哦哦配合关系数据库之间交换数据。Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统
9、,可以将各种类型的数据收集成适合Hadoop处理的文件,并保存在HDFS中供Hadoop进行各种 MapReduce操作。第三章1 试述分布式文件系统设计的需求。设计需求含义HDFS的实现情况透明性具备访问透明性、位置透明性、性能、和伸缩透明性只能提供一定程度的访问透明性,完全支持位置透明性、性能和伸缩透明性并发控制客户端对于文件的读写不应该影响其他客户端对同一个文件的读写机制非常简单,任何时候都只允许有一个程序写入某个文件文件复制一个文件可以拥有不同位置的多个副本HDFS采用了多副本机制硬件和操作系统的异构性可以在不同的操作系统和计算机上实现同样的客户端和服务端程序采用Java语言开发,具有
10、很好的跨平台能力可伸缩性支持节点的动态加入或退出建立在大规模廉价机器上的分布式文件系统集群,具有很好的伸缩性容错保证文件服务在客户端或者服务端出现问题的时候能正常使用具有多副本机制和故障自动检测、恢复机制安全保证系统的安全性安全性较弱2 分布式文件系统是如何实现较高水平扩展的?分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode),另一类叫“从节点”(Slave Node)或者也被称为“数据节点”(DataNode)3 试述HDFS中的块和普通文件系统中的块的区别。答:在传统的文件系统
11、中,为了提高磁盘读写效率,一般以数据块为单位,恶如不是以字节为单位。HDFS中的块,默认一个块大小为64MB,而HDFS中的文件会被拆分成多个块,每个块作为独立的单元进行存储。HDFS在块的大小的设计上明显要大于普通文件系统。4 试述HDFS中的名称节点和数据节点的具体功能。答:名称节点负责管理分布式文件系统系统的命名空间,记录分布式文件系统中的每个文件中各个块所在的数据节点的位置信息;数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并向名称节点定期发送自己所存储的块的列表。hadoop fs -ls 显示指定的文件的详
12、细信息hadoop fs -cat 将指定的文件的内容输出到标准输出hadoop fs -mkdir 创建指定的文件夹hadoop fs -get -ignorecrc -crc 复制指定的文件到本地文件系统指定的文件或文件夹。-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。hadoop fs -put 从本地文件系统中复制指定的单个或多个源文件到指定的目标文件系统中。也支持从标准输入(stdin)中读取输入写入目标文件系统。hadoop fs -rmr 删除指定的文件夹及其的所有文件第四章1. 试述在Hadoop体系架构中HBase与其他组成部分的相
13、互关系。答: HBase利用Hadoop MapReduce来处理HBase中的海量数据,实现高性能计算;利用Zookeeper作为协同服务,实现稳定服务和失败恢复;使用HDFS作为高可靠的底层存储,利用廉价集群提供海量数据存储能力; Sqoop为HBase的底层数据导入功能,Pig和Hive为HBase提供了高层语言支持,HBase是BigTable的开源实现。2. 请阐述HBase和BigTable的底层技术的对应关系答:项目BigTableHBase文件存储系统GFSHDFS海量数据处理MapReduceHadoop MapReduce协同服务管理ChubbyZookeeper3. 请阐
14、述HBase和传统关系数据库的区别答:区别传统关系数据库HBase数据类型关系模型数据模型数据操作插入、删除、更新、查询、多表连接插入、查询、删除、清空,无法实现表与表之间关联存储模式基于行模式存储,元组或行会被连续地存储在磁盘也中基于列存储,每个列族都由几个文件保存,不同列族的文件是分离的数据索引针对不同列构建复杂的多个索引只有一个行键索引数据维护用最新的当前值去替换记录中原来的旧值更新操作不会删除数据旧的版本,而是生成一个新的版本可伸缩性很难实现横向扩展,纵向扩展的空间也比较有限轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩4. HBase有哪些类型的访问接口?答:HBase提供了
15、Native Java API , HBase Shell , Thrift Gateway , REST GateWay , Pig , Hive 等访问接口。5. 请以实例说明HBase数据模型。列限定符列族答:InfoNameMajorEmail201505001Luo MinMathLuo201505002Liu JunMathliu201505003Xie YouMathxieyou行键单元格单元格有两个时间戳ts1和ts2每个时间戳对应一个数据版本6. 分别解释HBase中行键、列键和时间戳的概念(1) 行键是唯一的,在一个表里只出现一次,否则就是在更新同一行,行键可以是任意的字节
16、数组。(2) 列族需要在创建表的时候就定义好,数量也不宜过多。列族名必须由可打印字符组成,创建表的时候不需要定义好列。(3) 时间戳,默认由系统指定,用户也可以显示设置。使用不同的时间戳来区分不同的版本。7. 请举个实例来阐述HBase的概念视图和物理视图的不同HBase数据概念视图行键时间戳列族contents列族anchor“n.www”T5Anchor:=”CNN”T3Anchor:my.look.ca=”CNN”“n.www”T3Content:html=”.”T2Content:html=”.”T1Content:html=”.”HBase数据物理视图行键时间戳列族anchor“n.
17、www”T5Anchor:=”CNN”T4Anchor:my.look.ca=”CNN”行键时间戳列族contents“n.www”T3Content:html=”.”T2Content:html=”.”T1Content:html=”.”在HBase的概念视图中,一个表可以视为一个稀疏、多维的映射关系。在物理视图中,一个表会按照属于同一列族的数据保存在一起8. 试述HBase各功能组建及其作用(1)库函数:链接到每个客户端;(2)一个Master主服务器:主服务器Master主要负责表和Region的管理工作;(3)许多个Region服务器:Region服务器是HBase中最核心的模块,负责
18、维护分配给自己的Region,并响应用户的读写请求9. 请阐述HBase的数据分区机制。答: HBase采用分区存储,一个大的表会被分拆许多个Region,这些Region会被分发到不同的服务器上实现分布式存储。10. HBase中的分区是如何定位的。通过构建的映射表的每个条目包含两项内容,一个是Regionde 标识符,另一个是Region服务器标识,这个条目就标识Region和Region服务器之间的对应关系,从而就可以知道某个Region被保存在哪个Region服务器中。11. 试述HBase的三层结构中各层次的名称和作用。层次名称作用第一层Zookeeper文件记录了-ROOT-表的位
19、置信息第二层-ROOT-表记录了.META.表的Region位置信息-ROOT-表只能有一个Region。通过-ROOT-表,就可以访问.META.表中的数据第三层.META.表记录了用户数据表的Region位置信息,.META.表可以有多个Region,保存了HBase中所有用户数据表的Region位置信息12. 请阐述HBase的三层结构下,客户端是如何访问到数据的。答:首先访问Zookeeper,获取-ROOT表的位置信息,然后访问-Root-表,获得.MATA.表的信息,接着访问.MATA.表,找到所需的Region具体位于哪个Region服务器,最后才会到该Region服务器读取数据
20、。13. 试述HBase系统基本架构以及每个组成部分的作用。(1)客户端客户端包含访问HBase的接口,同时在缓存中维护着已经访问过的Region位置信息,用来加快后续数据访问过程(2)Zookeeper服务器Zookeeper可以帮助选举出一个Master作为集群的总管,并保证在任何时刻总有唯一一个Master在运行,这就避免了Master的“单点失效”问题(3)Master主服务器Master主要负责表和Region的管理工作:管理用户对表的增加、删除、修改、查询等操作;实现不同Region服务器之间的负载均衡;在Region分裂或合并后,负责重新调整Region的分布;对发生故障失效的R
21、egion服务器上的Region进行迁移(4)Region服务器Region服务器是HBase中最核心的模块,负责维护分配给自己的Region,并响应用户的读写请求14. 请阐述Region服务器向HDFS文件系统中读写数据的基本原理Region服务器内部管理一系列Region对象和一个HLog文件,其中,HLog是磁盘上面的记录文件,它记录着所有的更新操作。每个Region对象又是由多个Store组成的,每个Store对象了表中的一个列族的存储。每个Store又包含了MemStore和若干个StoreFile,其中,MemStore是在内存中的缓存。15. 试述HStore的工作原理每个St
22、ore对应了表中的一个列族的存储。每个Store包括一个MenStore缓存和若干个StoreFile文件。MenStore是排序的内存缓冲区,当用户写入数据时,系统首先把数据放入MenStore缓存,当MemStore缓存满时,就会刷新到磁盘中的一个StoreFile文件中,当单个StoreFile文件大小超过一定阈值时,就会触发文件分裂操作。16. 试述HLog的工作原理答:HBase系统为每个Region服务器配置了一个HLog文件,它是一种预写式日志(Write Ahead Log),用户更新数据必须首先写入日志后,才能写入MemStore缓存,并且,直到MemStore缓存内容对应的
23、日志已经写入磁盘,该缓存内容才能被刷写到磁盘。17. 在HBase中,每个Region服务器维护一个HLog,而不是为每个Region都单独维护一个HLog。请说明这种做法的优缺点。优点:多个Region对象的更新操作所发生的日志修改,只需要不断把日志记录追加到单个日志文件中,不需要同时打开、写入到多个日志文件中。缺点:如果一个Region服务器发生故障,为了恢复其上次的Region对象,需要将Region服务器上的对象,需要将Region服务器上的HLog按照其所属的Region对象进行拆分,然后分发到其他Region服务器上执行恢复操作。18. 当一台Region服务器意外终止时,Mast
24、er如何发现这种意外终止情况?为了恢复这台发生意外的Region服务器上的Region,Master应该做出哪些处理(包括如何使用HLog进行恢复)? Zookeeper会实时监测每个Region服务器的状态,当某个Region服务器发生故障时,Zookeeper会通知Master。Master首先会处理该故障Region服务器上面遗留的HLog文件,这个遗留的HLog文件中包含了来自多个Region对象的日志记录。系统会根据每条日志记录所属的Region对象对HLog数据进行拆分,分别放到相应Region对象的目录下,然后,再将失效的Region重新分配到可用的Region服务器中,并把与该
25、Region对象相关的HLog日志记录也发送给相应的Region服务器。Region服务器领取到分配给自己的Region对象以及与之相关的HLog日志记录以后,会重新做一遍日志记录中的各种操作,把日志记录中的数据写入到MemStore缓存中,然后,刷新到磁盘的StoreFile文件中,完成数据恢复。第五章1. 如何准确理解NoSQL的含义?NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的一类统称,它采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系模型。2. 试述关系数据库在哪些方面无法满族Web2.0应用的需求。关系数据库已经无法满足
26、Web2.0的需求。主要表现在以下几个方面:(1)无法满足海量数据的管理需求(2)无法满足数据高并发的需求(3)无法满足高可扩展性和高可用性的需求3. 请比较NoSQL数据库和关系数据库的优缺点。比较标准RDBMSNoSQL备注数据库原理完全支持部分支持RDBMS有关系代数理论作为基础NoSQL没有统一的理论基础数据规模大超大RDBMS很难实现横向扩展,纵向扩展的空间也比较有限,性能会随着数据规模的增大而降低NoSQL可以很容易通过添加更多设备来支持更大规模的数据数据库模式固定灵活RDBMS需要定义数据库模式,严格遵守数据定义和相关约束条件NoSQL不存在数据库模式,可以自由灵活定义并存储各种
27、不同类型的数据查询效率快可以实现高效的简单查询,但是不具备高度结构化查询等特性,复杂查询的性能不尽人意RDBMS借助于索引机制可以实现快速查询(包括记录查询和范围查询)很多NoSQL数据库没有面向复杂查询的索引,虽然NoSQL可以使用MapReduce来加速查询,但是,在复杂查询方面的性能仍然不如RDBMS一致性强一致性弱一致性RDBMS严格遵守事务ACID模型,可以保证事务强一致性很多NoSQL数据库放松了对事务ACID四性的要求,而是遵守BASE模型,只能保证最终一致性数据完整性容易实现很难实现任何一个RDBMS都可以很容易实现数据完整性,比如通过主键或者非空约束来实现实体完整性,通过主键
28、、外键来实现参照完整性,通过约束或者触发器来实现用户自定义完整性但是,在NoSQL数据库却无法实现扩展性一般好RDBMS很难实现横向扩展,纵向扩展的空间也比较有限NoSQL在设计之初就充分考虑了横向扩展的需求,可以很容易通过添加廉价设备实现扩展可用性好很好RDBMS在任何时候都以保证数据一致性为优先目标,其次才是优化系统性能,随着数据规模的增大,RDBMS为了保证严格的一致性,只能提供相对较弱的可用性大多数NoSQL都能提供较高的可用性标准化是否RDBMS已经标准化(SQL)NoSQL还没有行业标准,不同的NoSQL数据库都有自己的查询语言,很难规范应用程序接口StoneBraker认为:No
29、SQL缺乏统一查询语言,将会拖慢NoSQL发展技术支持高低RDBMS经过几十年的发展,已经非常成熟,Oracle等大型厂商都可以提供很好的技术支持NoSQL在技术支持方面仍然处于起步阶段,还不成熟,缺乏有力的技术支持可维护性复杂复杂RDBMS需要专门的数据库管理员(DBA)维护NoSQL数据库虽然没有DBMS复杂,也难以维护5.试述NoSQL数据库的四大类型答:键值数据库、列族数据库、文档数据库和图数据库6.试述键值数据库、列族数据库、文档数据库和图数据库的适用场合和优缺点。数据库适用场合优点缺点键值数据库通过键而是通过值来查的业务扩展性好,灵活性好,大量写操作时性能高无法存储结构化信息,条件查询效率较低列族数据库不需要ACID事务支持的情形查找速度快,可扩展性强,容易进行分布式扩展,复杂性低功