联想深腾1800机群作业调度与资源管理系统.docx
- 文档编号:26312054
- 上传时间:2023-06-17
- 格式:DOCX
- 页数:42
- 大小:680.80KB
联想深腾1800机群作业调度与资源管理系统.docx
《联想深腾1800机群作业调度与资源管理系统.docx》由会员分享,可在线阅读,更多相关《联想深腾1800机群作业调度与资源管理系统.docx(42页珍藏版)》请在冰豆网上搜索。
联想深腾1800机群作业调度与资源管理系统
联想深腾1800机群作业调度与资源管理系统用户手册
联想(北京)有限公司
2006年8月
联想深腾1800机群作业调度与资源管理系统
用户手册
1.系统简介
联想作业与资源管理系统LJRS(LenovoJob&ResourceManagementSystem)是建立在结点操作系统与用户程序之间的一种系统软件
。
其目的是为了方便用户提交并管理作业,统一管理机群系统中的各种软硬件资源,合理分配资源和调度作业,提高整个机群系统的资源利用率和吞吐率。
LJRS除了具有通常的作业管理系统所具备的基本功能如作业调度、批处理作业、作业管理和监控等基本功能外,还具有以下的技术特色:
1、支持异构平台
LJRS能够支持大多数的UNIX操作系统,包括LINUX、IBMAIX等,并且支持PC、SMP及工作站等硬件平台。
另外,对于计算能力不同的异构结点,通过配置系统资源,达到平衡负载的要求。
2、支持多种作业类型
用户能以批处理和交互式向LJRS提交运行串行和并行作业。
通过支持MPI(MessagePassingInterface)、PVM(ParallelVirtualMachine)等并行作业,LJRS允许将一个大型计算任务分发到多个CPU和计算结点上运行,确保在并行作业执行时,所有相关CPU和计算结点都能达到负载平衡,从而提高了整个机群系统的资源利用率和吞吐率。
3、丰富灵活的作业调度与结点分配策略
LJRS提供了FIFO(FirstInFirstOut)、Reservation和Backfilling等多种作业调度策略及其组合。
系统管理员可以根据实际应用的需要(如缩短平均作业周转时间或提高系统的资源利用率和吞吐率方面考虑)自由选择作业调度策略。
通过结合使用Reservation和Backfill作业调度策略,LJRS有效地解决了大型并行作业饥饿和资源浪费的矛盾,即采取预约策略解决了大型作业的饥饿问题,同时针对所产生的被预约资源的空闲间隔,在确保大型作业不被延迟的前提下,通过装填策略(Backfilling),在预约资源的空闲时间间隔内允许小作业占用这些预留资源运行,从提高了系统资源利用率和吞吐率。
对于结点分配策略,LJRS除了提供基本的公平共享和独占两种策略之外,还提供了可供系统管理员灵活配置的负载指标和负载平衡策略。
系统提供了系统级和用户作业级的负载均衡结点选择策略。
当系统为用户作业分配结点时,用户作业级的优先级最高,如果用户为自己的作业定义了结点选择策略,则根据用户设置的策略分配结点;如果用户的作业中没有定义,则采用系统缺省的结点选择策略。
4、强大的资源共享和管理功能
在LJRS中,定义了两种资源,一种称为可消耗资源,一种为不可消耗资源。
同时针对系统级、结点池级和计算结点级,系统提供了多层次的资源管理功能,为不同类型的资源特性提供了不同的解决方案,使系统有效地管理各种资源,包括对各种软件License的有效管理。
5、较高的系统和应用高可用性
系统通过采取备份服务器的形式,在主服务器发生故障时自动接管主服务器,消除了主服务器的单一故障点,使系统具有较好的高可用性。
同时,主服务器能够根据系统的配置和运行状态,智能的选取结点启动从服务器,从而保证主从备份机制的正常运作。
另外,当系统计算结点上的Execd发生故障时,能够不影响正在该结点上运行的作业。
而且,当Execd重启后,能够重新接管已经运行的作业,从而保证系统出错时作业的高可用性。
6、完善的作业监控能力
LJRS提供了有效的作业监控能力,特别是分布在不同结点上的并行作业的各个进程的监控和管理。
普通用户可以查看、删除、挂起和释放自己所提交的作业,系统管理员可以查看、删除、挂起和释放所有用户提交的作业,改变结点池和作业的状态等。
7、有效的安全机制
系统提供了基于UNIX操作系统的安全策略,在一定程度上保证了多用户环境下的安全。
另外,系统还具备主机、组和用户身份授权和认证机制,防止非授权用户对系统的使用和用户之间的的冒名使用和操作。
8、功能完全的记帐日志管理
LJRS能记录每一作业的不同时期的状态,记录每一作业的运行开始、结束时间,退出状态、优先级,通讯量以及所使用的资源等。
系统管理员通过配置资源记账策略,计算用户的记账信息
9、强大的好用性
LJRS提供了图形化界面和命令行两种操作方式,方便用户提交作业、监控系统和作业状态,删除或修改处于排队状态的作业,查询系统的资源及其使用状况等操作,系统管理员还可以通过图形化界面或命令行方式动态配置系统而不影响系统的正常运行。
用户还能通过Script文件提交作业,而且能在提交作业时指定作业开始调度或运行时间。
另外,系统还提供了符合POSIX1003.2d“BatchPoolingExtensionsforPortableOperatingSystems”标准的命令集和类LSF风格的命令集,方便用户使用。
系统可扩展性强,提供了各个部分的API接口,允许用户根据自己的需要开发自己的调度器。
对于系统管理员,我们还提供了自动化的安装、启动、停止和配置的图形化界面。
10、多机群系统和网格的支持
针对企业内部存在的多个机群独立运行问题,我们设计了多机群系统升级策略,并且即将推出多机群版本的作业与资源管理系统,与联想机群作业与资源管理系统紧密结合,实现管理多个机群,进行多机群间负载共享、联合调度的目的,最大限度地提高整个企业内部的资源共享能力和资源利用率。
针对网格应用的出现,系统考虑了对网格系统的支持,可以无缝接入网格系统,为网格作业和资源管理系统提供支持。
2.运行平台
LJRS的运行对硬件平台没有特殊的要求,支持PC、SMP服务器及工作站等硬件平台。
LJRS能够支持大多数的UNIX操作系统,包括LINUX、IBMAIX等。
3.用户界面
本系统的中文化web界面不仅提供了系统配置、系统启停、和作业管理、结点管理和作业提交等常用功能,还为普通用户提供了文件管理功能。
文件管理功能允许用户上载文件到服务器上运行,管理服务器上自己目录下的文件,如目录的增加、删除,文件的编辑、增加和删除,详细功能请见本节文件管理部分。
基于某些用户对命令行方式比较熟悉,LJRS的用户WEB界面也提供了方便好用的命令行运行环境,用户通过此界面可以直接输入对服务器的命令,查看命令运行结果,详细功能请见本节命令行运行部分。
3.1.基本配置
基本配置界面包括服务器配置、调度器配置、结点池配置和结点配置等。
以上配置界面供系统管理员使用,普通用户只能通过配置界面查看现有各种配置信息。
3.1.1.服务器配置
服务器配置界面主要包括基本配置和高级服务器配置。
基本配置包括调度周期、缺省结点池、系统管理员的配置和是否允许普通用户查看其他用户的作业以及高可用服务器的配置,同时还列出了服务器当前的只读属性供参考。
服务器高级配置用来配置服务器的一些不常用的属性,满足用户多方面的需求。
具体使用如下:
1、服务器基本配置:
点击主界面菜单条“基本配置”下的“服务器配置”,右侧显示出“服务器配置”界面。
具体界面如下:
服务器配置
服务器基本配置可以配置作业管理系统的调度周期、缺省结点池、系统管理员,同时可以配置用户是否能否查看他人作业和高可用服务器等基本属性。
同时列出了服务器的只读属性供系统管理员选择。
服务器基本配置界面右上方有三个功能按钮,分别是“重置”、“高级”和“提交”。
点击“重置”,按钮,可以恢复界面的初始化设置。
点击“提交”按钮,可以提交服务器的基本配置。
点击“高级”按钮,则进入“服务器高级配置”界面。
2、服务器高级配置
一般情况下,服务器基本配置能够满足需求。
如果用户需要对服务器进行更加详细的设置,可以通过“服务器高级配置”界面进行配置,具体界面如下:
服务器高级配置
服务器高级配置包括服务器日志级别配置、最多运行作业数限制的配置、授权结点配置、授权用户配置、资源配置等。
授权结点配置包括授权访问的结点配置和允许root提交作业的结点配置,授权访问的结点是指普通用户能够提交作业和执行查询等基本操作的结点。
授权用户配置包括授权访问的用户配置和操作员配置,资源配置包括最大资源配置、缺省资源配置和可用资源配置。
3.1.2.调度器配置
调度器配置界面主要用来配置调度器的基本属性,主要包括日志文件配置、结点分配策略配置、预约配置、延时配置和装填策略配置。
具体界面如下:
调度器配置
日志文件配置包括日志级别、日志文件大小和日志文件保留个数配置。
日志级别缺省为3。
日志级别越大,记录的日志信息就越多。
如果日志级别太大,日志信息就很多,调度器频繁地写日志文件,无形中增加了网络负担。
结点分配策略配置包括结点最大负载配置和结点分配策略选择。
其中结点最大负载为执行作业的结点的负载上限,超过上限,结点的状态将会标志为busy,不再接收任何作业,直到负载小于结点最大负载。
缺省值为0.0,含义是没有上限,即对结点的最大负载没有限制。
结点分配策略的选择可以根据用户的作业要求进行选择,缺省为综合策略,即综合考虑cpu负载和系统负载,同时cpu负载的权值和系统负载的权值都是可以设定的,这是根据用户的结点类型和作业类型来进行配置。
Cpu负载权值配置:
可以设置cpu负载的权值。
例如,用户填写“1分钟负载”为10,“5分钟负载”为15,“15分钟负载”为20,则系统“1分钟负载”的值在cpu负载中的权重为:
10/(10+15+20)=22%,“5分钟负载”的所占的权重为:
15/(10+15+20)=33%,“5分钟负载”的所占的权重为:
20/(10+15+20)=44%。
三者的总和为100%。
系统负载权值配置:
可以配置系统负载的权值。
它们的权值计算同“cpu负载权值的计算”。
预约配置包括预约策略的选择和预约深度的设置。
预约策略就是调度器预约作业时采取的策略,包括currentHighest,highest和never,currentHighest指预约当前优先级最高的作业,highest指预约所有作业中优先级最高的作业,never指从来不预约作业。
预约深度为每个结点最多允许的预约个数。
延时配置:
包括延时时间(defertime)设置、延时前允许空闲次数(deferStartCount)设置和挂起前允许延时次数(deferCount)设置。
延时时间指作业进入延时状态后到重新进入idle状态等待调度的时间间隔。
延时前允许空闲的次数指一个作业在进入延时状态前被连续调度运行失败的次数。
挂起前允许延时次数指作业进入batchhold状态前延时的次数。
当作业进入batchhold状态后,表明系统多次调度该作业不成功,认为此作业无法运行,此时只有系统管理员通过执行releasehold–ajobId,该作业才能进行idle状态被重新调度,否则该作业将永远不被调度。
装填策略配置:
包括装填策略的选择和策略对应的配置,如果选择firstfit,配置装填深度,如果选择bestfit,还需要选择结点分配依据。
如果选择Greedy,需要配置装填深度和最大作业组合数。
也可以选择none,不对作业进行装填。
3.1.3.结点池管理
结点池管理主要是用来管理作业管理系统的结点池,主要包括增加结点池、删除结点池和配置结点池三大功能,通过点击界面左侧的主菜单“基本配置-结点池管理”进入“结点池管理”界面。
结点池管理界面如下:
结点池管理
选中要配置的结点池,点击“配置”按钮,进入结点池配置界面,如下图所示。
结点池配置
如果要对结点池进行其他的属性配置,点击结点顶部的“高级”,进入“结点池高级配置”界面,界面下图所示。
结点池高级配置
结点池高级配置包括结点池的优先级配置、对作业发送杀死信号的时间间隔的配置,是否允许路由的配置以及最多作业运行数的配置,还包括结点池的授权结点配置、结点池的授权用户配置以及结点池的资源配置。
3.2.启停控制
启停控制模块的主要功能是显示机群作业管理系统的主服务器和结点的当前状态,控制其启动或停止。
只有系统管理员才能控制机群作业管理系统的启动或停止,普通用户仅能查看其工作状态。
系统正常启动后,系统的主服务器和结点的状态用不同的颜色图标表示。
主的状态划分为“启动”和“停止”等,分别用绿色和红色的图标表示。
结点的状态划分为“停止”、“空闲”、“繁忙”、“离线”、“作业占用”、“长时间停止”和“不确定”等,分别用红、绿、橙色、浅蓝色、黄色、浅紫和深蓝色图表表示。
机群作业管理系统正常启动的状态如下图所示。
机群作业管理系统正常启动状态
系统正常停止后,所选择的主服务器和结点的状态图标显示为红色,表示主服务器和从服务器正常停止,结点处于“down”状态。
为了方便用户查看机群作业管理系统中各服务器和结点的状态,本页面的上下两端均显示了图标颜色的定义。
红色图标代表“down”状态,表示机群作业管理系统的结点或服务器处于“停止”状态;绿色图标代表“free”,表示机群作业管理系统服务器处于“启动”状态或结点处于“空闲”状态;橙色图标代表“buzy”,表示机群作业管理系统的结点负载繁重;蓝色图标代表“offline”,表示机群作业管理系统的结点处于离线状态;黄色图标代表“job-exclusive”,表示机群作业管理系统的结点被作业占用;紫色图标代表“unknown,down”,表示自服务器启动后,机群作业管理系统的结点从来没有启动;深蓝色图标代表“unknown(notstarted)”,表示因为机群作业管理系统服务器未启动,机群作业管理系统的状态不能确定。
图标颜色的定义如下图所示。
图标颜色定义
3.3.结点配置
结点配置模块的主要功能包括增加或删除结点、监控和查看结点状态、配置结点等。
普通用户仅能查看结点状态和结点的配置信息,而不能增加或删除结点、配置结点等。
监控和查看机群作业管理系统的状态,是结点配置模块的主要功能之一。
结点配置模块的主页面显示当前机群作业管理系统的主服务器和所有结点(如图机群作业管理系统结点管理主界面所示),其状态用图标颜色直观地显示(图标颜色定义同启停控制页面),帮助系统管理员迅速掌握机群系统内各服务器和结点的状况,及时维护系统等。
如果系统管理员要查看结点的详细信息,如结点名、状态、CPU数目和属性等,首先选择要查看的结点,结点栏的全选和清空按钮可以方便用户进行取消或选择全部结点操作,然后单击页面右上角的“查看”按钮,系统将显示结点查看结果,单击“结点查看结果”页面右上角的“返回”按钮,将返回“结点管理”页面。
如图机群作业管理系统结点查看结果所示。
机群作业管理系统结点管理主界面
机群作业管理系统结点查看结果
结点配置页面如下图所示。
机群作业管理系统结点配置页面
3.4.作业管理
作业管理界面主要包括查看结点池的详细信息、查看结点池的作业、查看作业的详细信息、查找作业、删除作业、挂起作业、释放作业、给作业发信号、给作业发消息、结点池之间移动作业等功能。
普通用户仅能针对自己提交的作业进行以上操作。
当然,如果系统配置允许查看其他人的作业,普通用户就可以查看所有作业。
通过点击界面左侧的主菜单“作业管理”进入“作业管理”界面。
主界面如下:
作业管理主界面
主要功能和使用如下:
1、刷新
点击“刷新”,界面进行刷新,刷新结点池信息和结点信息,当前界面上的信息为当前服务器上的最新信息。
2、查看结点池详细信息:
通过结点池前面的复选框选中要操作的结点池,点击“结点池信息”行的“详细信息”,进入指定结点池的详细信息界面,点击“返回”,返回到“作业管理”界面。
“结点池详细信息”界面如下:
结点池详细信息
3、查看指定结点池的作业:
通过结点池前面的复选框选中要操作的结点池,点击“结点池信息”行的“查看作业”,则作业管理界面的作业信息部分进行刷新,列出指定结点池的作业信息。
4、查看作业详细信息:
通过作业信息部分前面的复选框选中要操作的作业,点击作业信息行的“详细”,进入指定作业的详细信息界面,点击“返回”,返回到“作业管理”界面。
“作业详细信息”界面如下:
作业详细信息
5、查找作业:
点击作业信息行的“查找”,进入“作业查找”界面。
在“作业查找”界面,点击“重置”,界面恢复到初始化状态。
点击“返回”,不做任何操作返回到“作业管理”界面。
在各个输入框,输入查看信息,可以不输入,点击“提交”,返回到“作业管理”界面,同时“作业信息”部分列出查找的结果。
“作业查找”界面如下图所示。
作业查找
6、修改作业:
点击“作业信息”行的“修改”,进入“作业修改”界面。
在“作业修改”界面,点击“重置”,界面恢复到初始化状态。
点击“返回”,不做任何操作返回到“作业管理”界面。
修改需要修改的信息,点击“提交”,系统修改作业信息,并提示执行结果。
“作业修改”界面如下:
作业修改
7、删除作业:
在作业信息部分选中要删除的作业。
点击作业信息行的“删除”,对选定的作业进行删除。
8、挂起作业:
在作业信息部分选中要挂起的作业,选中作业的“S”值必须为“Q”,点击作业信息行的“挂起”,对选定的作业进行挂起。
9、释放作业:
在作业信息部分选中要释放的作业,选中作业的“S”值必须为“H”,点击作业信息行的“释放”,对选定的作业进行释放。
10、给作业发信号:
在作业信息部分选中要发送信号的作业,作业的“S”值必须为“R”。
点击作业信息行的“发信号”,进入“作业发送信号”界面。
在“作业发送信号”界面,点击“重置”,界面恢复到初始化状态。
点击“返回”,不做任何操作返回到“作业管理”界面。
选中发送信号的类型,点击“提交”,对选中作业发送信号。
进入“作业管理”界面,选中要发送信号的作业,作业的“S”值必须为“R”。
“作业发送信号”界面如下:
作业发送信号
11、给作业发送消息:
在作业信息部分选中要发送消息的作业,点击作业信息行的“发消息”,进入“作业发送消息”界面。
在“作业发送消息”界面,点击“重置”,界面恢复到初始化状态。
点击“返回”,不做任何操作返回到“作业管理”界面。
选中发送消息的类型,输入发送的消息,点击“提交”,对选中作业发送消息,返回到“作业管理”界面。
“作业发送消息”界面如下:
作业发送消息
12、结点池之间移动作业:
在作业信息部分选中要移动结点池的作业,点击作业信息行的“移动”,进入作业移动界面。
点击“重置”,界面恢复到初始化状态。
点击“返回”,不做任何操作返回到“作业管理”界面。
在“作业移动”界面,选择要移动的结点池,输入发送的消息,点击“提交”,对选中作业发送消息,返回到“作业管理”界面。
“移动作业”界面如下:
结点池之间移动作业
3.5.作业提交
通过作业提交界面,用户可以方便地提交作业。
用户可以选择和编辑提交的脚本名,规定提交作业的作业名、前缀名、账号名、优先级,可以选择是否挂起该作业(默认为不挂起),选择目的结点池(如果不选,则作业被提交到缺省结点池中),配置输出选项、配置邮件选项、配置作业所需的资源、选择作业的结点分配策略等,这些选项除了“脚本名”是必须填写外,其余都是可选项,可以不添不选,系统会自动采用缺省配置。
通过点击界面左侧的主菜单“作业提交”进入“作业提交”界面。
注:
在提交作业时,作业名不能以数字开头,如“111”,“12sadf”等。
否则会提交失败。
请用纯字母或字母开头的字母数字组合。
注:
选择结点CPU个数如果需要奇数个时,例如3个。
LJRS能提供的选择方式是,选3台机器每台使用1个CPU,而不能是使用2台机器一台使用2个CPU一台使用1个CPU。
所以在选择结点个数和选择CPU个数时,请用户注意。
主界面如下:
作业提交
主要功能和使用如下:
点击“重置”,将界面回复初始化状态,点击基本选项部分的“选择文件”,进入“选择文件”界面,可以在用户的主目录下进行编辑文件、新建文件和选择文件,编辑文件和新建文件的使用请见下一节文件管理的使用。
在“选择文件”界面,点击“重置”,将界面回复初始化状态,点击“返回”,不做任何操作,返回“作业提交”界面,选中文件,点击“提交”,则选中用户选择的文件作为提交作业的脚本,返回“作业提交”界面。
在“作业提交”界面,分别根据需要填写基本选项、输出选项、邮件选项、资源配置、结点分配策略的选择等,点击“提交”,对用户作业进行提交。
提交后会将作业的jobid号告诉用户,用户可以通过“作业管理”界面查看到该作业的运行信息。
“选择文件”的界面如下:
选择文件
点击“新建作业提交脚本“按钮,进入新建作业提交脚本页面,根据页面上的使用说明进行操作,选择作业类型、网络类型、并行环境类型,设置脚本属性,选择应用程序路径,最终点“确定”按钮会在用户选择的脚本存放目录生成作业提交脚本。
新建作业提交脚本
3.6.文件管理
文件管理主要为了方便用户管理自己目录下的文件,主要包括“新建目录”、“删除目录”、“编辑文件”、“新建文件”和“删除文件”等功能。
此外,用户还可以通过该界面,将自己本机上的文件上载到web服务器上,从而用户可以直接在本地编辑脚本,然后将该脚本上载到服务器上,进行作业提交。
通过主界面的文件管理进入“文件管理”界面,当用户的主目录建立在NFS共享目录下,就可以将用户的文件下载到本地,否则没有文件下载功能,两种主界面如下:
NFS用户文件管理
本地文件管理
主要功能和使用如下:
1、新建目录:
该功能就是在当前目录下建立新的目录,点击目录列表一行的“新建目录”,进入新建目录界面,输入目录名,点击“提交”,建立新的目录,并返回文件管理。
“新建目录”界面如下:
创建新目录
2、删除目录:
该功能就是在当前目录下删除已有目录,选中要删除的目录,点击目录列表一行的“删除目录”,删除用户选中的目录
3、编辑文件:
该功能就是在当前目录下编辑文件,选中要编辑的文件,点击文件列表一行的“编辑文件”,进入“编辑文件”界面,编辑用户选中的文件。
在“编辑文件”界面,点击“保存’覆盖原文件。
点击“另存”,则进入“保存文件”界面,用户输入新的文件名,则编辑的文件被保存为一个新的文件。
“编辑文件”的界面如下:
编辑文件
保存文件的界面如下:
保存文件
4、新建文件:
该功能就是在当前目录下建立新的文件,点击文件列表一行的“新建文件”,进入“编辑新文件”界面,编辑用户文件。
在“编辑新文件”界面,点击“保存”,则进入“保存文件”界面,用户输入文件名,则编辑的文件被保存为一个新的文件。
“编辑新文件”界面如下:
编辑新文件
5、删除文件:
该功能就是在当前目录下删除文件,选中要删除的文件,点击文件列表一行的“删除文件”,删除用户选中的文件
6、上载文件:
该功能就是在当前目录下上载用户文件,点击“文件上载”部分的“浏览”,弹出用户本机的文件选择框,选择要上载的文件,点击“上载”,用户的本机文件就被上载到当前目录。
7、下载文件:
如果用户目录在NFS目录下,则可以使用该功能,否则没有该功能。
该功能是将server上的文件下载到用户客户端。
选中要下载的文件,点击“文件下载”,进入“下载文件”界面,右击文件即可进行下载。
下载文件界面如下:
下载文件
3.7.命令行执行
命令行运行界面提供了命令行提交作业的模拟环境,用户可以很方便直接键入命令,就可以提交作业。
通过点击界面左侧的主菜单“命令行执行”进入“命令行执行”界面。
主界面如下:
命令行执行
具体功能和使用如下:
用户在“请输出命令”后的文本行输入任何在命令行方式下运行的命令,按“enter”回车键或者点击“提交”,该命令
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 联想 1800 机群 作业 调度 资源管理 系统