作业调度
大约 2 分钟
作业调度系统介绍
登录集群后,不能直接在登录节点运行程序, 需要通过调度系统以作业的形式提交到计算节点上计算,
集群采用slurm调度系统
作业几个重要属性
账户(Account):
登录集群用的用户名是上机账号,每个上机账号至少关联一个缴费账户,用于作业计费, 通常情况下,提交作业不需要指定账户,通过以下命令可以查询上机账号所关联的账户:
sacctmgr show ass user=`whoami` format=account%15 |uniq
如果一个上机账号对应了多个缴费账户,那么可以在提交作业时指定缴费账户
账户主要用作记费, 小型集群一般不会配置记费功能。
分区(Partition): 也叫队列
提交作业时
必须
指定分区, 不指定会使用缺省分区,每个分区有不同的属性,比如节点核心数,内存大小, 通过以下命令可以查看对应集群可用分区;sacctmgr show ass user=`whoami` format=part |uniq 或 sinfo
作业质量(QOS):
对于收费集群,用户需要指定QOS,不同QOS优先级不同,收费也不同,
通过以下命令可以查询 每个用户在每个分区下可用的QOS;
sacctmgr show ass user=`whoami` format=user,part,qos
通过下面命令可以查看不同QOS的作业优先级、作业允许最大运行时间、每个用户最多可提交作业数、最多可用核心数。
sacctmgr show qos format=name,Priority,MaxWall,MaxJobsPU,MaxTRESPA
作业调度系统常见的几个指令