云计算课堂讨论题.docx
- 文档编号:25646113
- 上传时间:2023-06-11
- 格式:DOCX
- 页数:15
- 大小:63.49KB
云计算课堂讨论题.docx
《云计算课堂讨论题.docx》由会员分享,可在线阅读,更多相关《云计算课堂讨论题.docx(15页珍藏版)》请在冰豆网上搜索。
云计算课堂讨论题
2018.5.17
1、如何理解分布式系统中的 CAP 定理?
(一致性、可用性、分区容错性)
CAP 原则又称 CAP 定理,指的是在一个分布式系统中, Consistency(一致性)、
Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼。
一致性(C):
在分布式系统中的所有数据备份,在同一时刻是否同样的值。
(等同于所
有节点访问同一份最新的数据副本),换句话就是说,任何时刻,所用的应用程序都能访
问得到相同的数据。
可用性(A):
在集群中一部分节点故障后,集群整体是否还能响应客户端的读写请求。
(对数据更新具备高可用性),换句话就是说,任何时候,任何应用程序都可以读写数
据。
分区容错性(P):
以实际效果而言,分区相当于对通信的时限要求。
系统如果不能在时
限内达成数据一致性,就意味着发生了分区的情况,必须就当前操作在 C 和 A 之间做出选
择,换句话说,系统可以跨网络分区线性的伸缩和扩展。
2、云计算平台 (系统)的核心技术是虚拟化技术、服务计算(功能服务化、按需服务、
按需收费)、分布式技术(分布式存储、分布式计算一分而治之)。
如何理解?
虚拟化是云计算最重要的核心技术之一,它为云计算服务提供基础架构层面的支撑,是
ICT 服务快速走向云计算的最主要驱动力。
从技术上讲,虚拟化是一种在软件中仿真计算
机硬件,以虚拟资源为用户提供服务的计算形式。
旨在合理调配计算机资源,使其更高效
地提供服务。
它把应用系统各硬件间的物理划分打破,从而实现架构的动态化,实现物理
资源的集中管理和使用。
虚拟化的最大好处是增强系统的弹性和灵活性,降低成本、改进
服务、提高资源利用效率。
服务计算(Service Computing)泛指以服务及其组合为基础构造应用这一新开发
范型相关的方法、技术、规范、理论和支撑环境
分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位
置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
3、Hadoop 是开源(opensource)的云计算实现系统。
你如何认识开源产品和闭源产品?
开源是一种生产软件和发布软件的方法。
它只是一个执行的范例。
开源意味着
没有使用费用;只要在几个规则下,你就可以随意使用,其中包括的发布规则在
开源使用说明中已有描述。
与闭源代码产品(如 Oracle 公司或尤其是微软公司)
不同,其使用许可并不复杂。
使用真正的开源代码,你可以得到使用许可证移
动性,这意味着云计算使用许可中的一切。
4. Hadoop 系统主要有哪四大模块?
相互关系如何?
作为计算机类 专业人士,如
何利用好 Hadoop 提供的编程接口进行 Hadoop 平台上的二次开发?
Hadoop 架包括以下四个模块:
(p182)
Hadoop Common 这些是其他 Hadoop 模块所需的 Java 库和实用程序。
这些
库提供文件系统和操作系统级抽象。
井包含启动 Hadoop 所需的 Java 文件和脚本。
Hadoop YARN 这是一个用于作业调度和集群资源管理的框架。
Hadoop Distributed FileSystem (HDFS)分布式文件系统,提供时应
用程序数据的高吞吐量访间。
Hadoop MapReduce 这是基于 YARN 的用于并行处理大数据集的系统。
编程接口:
(p202)
2018.5.24
1、 Hadoop2.0 主要有哪些主要组件?
记住主要的六个组件的功能。
∙HDFS:
如果您希望有 4000 多台电脑处理您的数据,那么最好将您的数据分发给 4000 多台
电脑。
HDFS 可以帮助您做到这一点。
HDFS 有几个可以移动的部件。
Datanodes 存储数据,Na
menode 跟踪存储的位置。
还有其他部件,但这些已经足以使您开始了。
∙MapReduce:
这是一个面向 Hadoop 的编程模型。
有两个阶段,毫不意外,它们分别被称
为 Map 和 Reduce。
如果希望给您的朋友留下深刻的印象,那么告诉他们,Map 和 Reduce 阶
段之间有一个随机排序。
JobTracker 管理您的 MapReduce 作业的 4000 多个组件。
TaskTrack
er 从 JobTracker 接受订单。
如果您喜欢 Java,那么用 Java 编写代码。
如果您喜欢 SQL 或 Ja
va 以外的其他语言,您的运气仍然不错,您可以使用一个名为 Hadoop Streaming 的实用程
序。
∙Hive 和 Hue:
如果您喜欢 SQL,您会很高兴听到您可以编写 SQL,并使用 Hive 将其转换
为一个 MapReduce 作业。
不,您不会得到一个完整的 ANSI-SQL 环境,但您的确得到了 4000
个注释和多 PB 级的可扩展性。
Hue 为您提供了一个基于浏览器的图形界面,可以完成您的 Hive
工作。
∙Pig:
一个执行 MapReduce 编码的更高层次的编程环境。
Pig 语言被称为 Pig Latin。
您可能
会发现其命名约定有点不合常规,但是您会得到令人难以置信的性价比和高可用性。
∙Oozie:
管理 Hadoop 工作流。
这并不能取代您的调度程序或 BPM 工具,但它在您的 Hado
op 作业中提供 if-then-else 分支和控制。
∙HBase:
一个超级可扩展的键值存储。
它的工作原理非常像持久的散列映射(对于 Python 爱
好者,可以认为是词典)。
尽管其名称是 HBase,但它并不是一个关系数据库。
∙Zookeeper:
用于管理集群的同步性。
2、Hadoop 部署版分为社区版和商用版(稳定版),有何区别?
主要是商用版有哪
些?
∙社区版 Hadoop:
Apache 发布的一款支持数据密集型分布式应用并以 Apache2.0
许可协议发布的开源软件框架。
它支持在商品硬件构建的大型集群上运行的应用程
序;
∙商用版 Hadoop:
第三方公司在社区版 Hadoop 基础上进行了一些修改、整合以及
各个服务组件兼容性测试;
∙当前 hadoop 的发行版本除了 Apache 的开元版本之外,华为发行版、Intel 发行版
以及 Cloudera 发行版等。
免费的发行版则主要是国外的,比如 Apache 的发行版、C
loudera 发行版等。
3、Zookeeper 组件功能如何?
工作原理如何?
(p223)
4、Zooleeper、Hbase、Hive 组件 都提供了常用的两种实验方法:
Shell 接口 和 编程
接口。
请举例说明。
(p225,p230,p237)
2018.5.31
在计算机中,虚拟化(Virtualization)是一种资源管理技术,是将计算机的各种实体资源,如服
务器、网络、内存及存储等,予以抽象、转换后呈现出来,打破实体结构间的不可切割的障碍,使用户可
以比原本的组态更好的方式来应用这些资源。
这些资源的新虚拟部份是不受现有资源的架设方式,地域或
物理组态所限制。
一般所指的虚拟化资源包括计算能力和资料存储。
在实际的生产环境中,虚拟化技术主要用来解决高性能的物理硬件产能过剩和老的旧的硬件产能过
低的重组重用,透明化底层物理硬件,从而最大化的利用物理硬件。
1、 比较 VMware、Xen 等虚拟化产品的关键技术,以及对云计算技术提供的支持。
Xen 是一个开放源代码虚拟机监视器,由剑桥大学开发。
Xen 的缺点是操作系统必须进行
显 式 地 修 改 (“移植”) 以 在 Xen 上 运 行 ( 但 是 提 供 对 用 户 应 用 的 兼 容 性 ) , 所 以 比 较 麻
烦。
使得 Xen 无需特殊硬件支持,就能达到高性能的虚拟化。
Linux 的官方内核在较早之
前已经去掉了对 Xen 的支持。
VMWare (Virtual Machine ware)是一个“虚拟 PC”虚拟机管理管理软件。
它的产品可以使
你 在 一 台 机 器 上 同 时 运 行 二 个 或 更 多 Windows、DOS、LINUX 系 统 。
与“多启动”系 统 相
比,VMWare 采用了完全不同的概念。
多启动系统在一个时刻只能运行一个系统,在系统
切换时需要重新启动机器。
VMWare 是真正“同时”运 行 , 多 个 操 作 系 统 在 主 系 统 的 平 台
上 , 就 象 标 准 Windows 应 用 程 序 那 样 切 换 。
而 且 每 个 操 作 系 统 你 都 可 以 进 行 虚 拟 的 分
区、配置而不影响真实硬盘的数据,你甚至可以通过网卡将几台虚拟机用网卡连接为一个
局域网,极其方便。
安装在 VMware 操作系统性能上比直接安装在硬盘上的系统低不少,
因此,比较适合学习和测试。
是否开源 是否免费 性能 优点 缺点
XEN 是是高1.性能较好。
2.开源、免费操作复杂,维护成本较
高,目前已被 RedHat 抛弃
VMWare 否否一般 相对比较成熟的商业软件,市场占有率较大不开
源,需要付费
2、 服务器虚拟化有哪些主要底层实现技术?
(p252)
3、 虚拟机迁移的作用?
简述虚拟机迁移的主要步骤。
(p253)
4、 主要的开源虚拟化平台有哪些?
你准备选择 哪一个作为重点学习和构建云计算平台?
AbiCloud 企业级开源云计算平台、Eucalyptus 开源云计算平台、10genMongoDB 开源
高性能存储平台、.Enomalism 弹性计算平台、云计算平台 Nimbus、OpenStack 开源虚
拟化平台(p269)
2018.6.07
1、Openstack 是什么?
(p269)
OpenStack 是一个开源的云计算管理平台项目,由几个主要的组件组合起来完成具体
工作。
OpenStack 支持几乎所有类型的云环境,项目目标是提供实施简单、可大规模
扩展、丰富、标准统一的云计算管理平台。
OpenStack 通过各种互补的服务提供了基
础设施即服务(IaaS)的解决方案,每个服务提供 API 以进行集成。
2、Nova、Swift、Glance 三者各是什么?
有什么关系?
(p272、p282、p291)
关系:
(P291)
3、什么是分布式系统中的 CAP 定理?
数据一致性模型有 几大类?
如何实现 最终一致
性?
一致性(C) :
在 分 布 式 系 统 中 的 所 有 数 据 备 份 , 在 同 一 时 刻 是 否 同 样 的 值 。
( 等 同 于 所
有节点访问同一份最新的数据副本),换句话就是说,任何时刻,所用的应用程序都能访
问得到相同的数据。
可用性(A):
在集群中一部分节点故障后,集群整体是否还能响应客户端的读写请求。
(对数据更新具备高可用性),换句话就是说,任何时候,任何应用程序都可以读写数
据。
分区容错性(P):
以实际效果而言,分区相当于对通信的时限要求。
系统如果不能在时
限内达成数据一致性,就意味着发生了分区的情况,必须就当前操作在 C 和 A 之间做出选
择,换句话说,系统可以跨网络分区线性的伸缩和扩展。
常用的一致性模型有:
a、严格一致性 b、顺序一致性 c、因果一致性 d、管道
一致性 e、弱一致性 f、 释放一致性 g、最终一致性 h、delta consistency
最终一致性的几种具体实现:
1、读不旧于写一致性 2、会话一致性(3、单读一致性 4、单写一致性 5、写不
旧于读一致性
4、什么叫 守护进程(daemon)?
什么叫 Hypervisor ?
守护进程(daemon)介绍 守护进程,也称为精灵进程,是一种运行在后台的特殊进程,它
不存在控制终端,并周期性地执行某项任务或等待处理某项任务。
Hypervisor 是一种运行在物理服务器和操作系统之间的中间软件层,可允许多个操作系统和
应用共享一套基础物理硬件,因此也可以看作是虚拟环境中的“元”操作系统,它可以协
调 访 问 服 务 器 上 的 所 有 物 理 设 备 和 虚 拟 机 , 也 叫 虚 拟 机 监 视 器 ( Virtual Machine
Monitor)。
Hypervisor 是所有虚拟化技术的核心。
非中断地支持多工作负载迁移的能力是
Hypervisor 的基本功能。
当服务器启动并执行 Hypervisor 时,它会给每一台虚拟机分配适
量的内存、CPU、网络和磁盘,并加载所有虚拟机的客户操作系统。
相比于行存储,列存储有哪些特点
优点是针对某个列中的值进行简单查询的速度非常快,需要的内部存储资源最少。
这表示
对某个列中特定值的搜索可以直接进入该列的存储区,而不需要扫描整行的数据。
这样也
使得数据压缩变得更容易,因为一个列中的数据通常具有相同的数据类型。
这种体系结构
在处理数据仓库使用的海量数据时没有问题,但不适合需要进行大量以行的方式进行访问
和更新操作的联机事物处理。
就是这种数据库之一。
在由一万亿行组成的测试数据集中,
输入数据共很明显,这是一种适合数据仓库的技术。
这种技术虽然在压缩和快速访问方面
有优势,但也存在插入操作复杂的缺点。
公有地址:
由 Inter NIC(Internet Network Information Center 因特网信息中心)负责。
这
些 IP 地址分配给注册并向 Inter NIC 提出申请的组织机构。
通过它直接访问因特网。
私有地址:
属于非注册地址,专门为组织机构内部使用。
弹性 ip:
在 EC2 启动实例时,自动地为每个实例分配一个私有 IP 地址和一个公共 IP 地
址。
地理区域:
按照实际的地理位置划分的
可用区域:
根据是否有独立的供电系统和冷却系统等
从架构上分析 hadoop 优缺点
HDFS 缺点:
1、不能做到低延迟:
由于 hadoop 针对高数据吞吐量做了优化,牺牲了获取数据的延迟,
所以对于低延迟数据访问,不适合 hadoop,对于低延迟的访问需求,HBase 是更好的选
择,
2、不适合大量的小文件存储:
由于 namenode 将文件系统的元数据存储在内存中,因此
该文件系统所能存储的文件总数受限于 namenode 的内存容量,根据经验,每个文件、目
录和数据块的存储信息大约占 150 字节。
3、不适合多用户写入文件,修改文件:
Hadoop2.0 虽然支持文件的追加功能,但是还是
不建议对 HDFS 上的 文件进行修改,因为效率低。
4、对于上传到 HDFS 上的文件,不支持修改文件,HDFS 适合一次写入,多次读取的场
景。
5、HDFS 不支持多用户同时执行写操作,即同一时间,只能有一个用户执行写操作。
二、HDFS 优点:
1、高可靠性。
Hadoop 按位存储和处理数据的能力值得人们信赖。
2、高扩展性。
Hadoop 是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可
以方便地扩展到数以千计的节点中。
3、高效性。
Hadoop 能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此
处理速度非常快。
4、高容错性。
Hadoop 能够自动保存数据的多个副本,并且能够自动将失败的任务重新分
配。
5、 低 成 本 。
与 一 体 机 、 商 用 数 据 仓 库 以 及 QlikView、Yonghong Z-Suite 等 数 据 集 市 相
比,hadoop 是开源的,项目的软件成本因此会大大降低。
6、Hadoop 带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。
Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算 课堂 论题