跳到主要内容

一体机简介

一体机系统概述

  • 集群管理平台: xcat

  • 集群调度系统: slurm

  • 集群帐号管理: nis

  • 集群监控系统: ganglia

一体机详细规划

主机名ipmi ip1口系统网IP高速网 IB IP
mgt172.16.9.200/23172.16.8.200/23172.16.7.200/24
n01172.16.9.1/23172.16.8.1/23172.16.7.1/24
n02172.16.9.2/23172.16.8.2/23172.16.7.2/24
............
n11172.16.9.11/23172.16.8.11/23172.16.7.11/24
............
提示
  • 以详细规划表为准
  • 见系统 /etc/hosts 文件

管理员常用批命令

批命令, 从管理节点往计算节点发命令

  • 查看系统版本
cat /etc/redhat-release

psh all "cat /etc/redhat-release"
  • 查看网络是否连通
[root@mgt ~]# pping all
n01: ping
n02: ping
...
  • 查时间
 [root@mgt ~]# psh all date
n01: Sat Jun 6 22:41:28 CST 2020
n02: Sat Jun 6 22:41:28 CST 2020
  • 批拷贝, 把管理节点的 /etc/hosts 拷贝到计算节点的 /etc
[root@mgt ~]# pscp /etc/hosts all:/etc
n01: done
n02: done
  • 批关机, 给 n01, n02 节点发关机命令
[root@mgt ~]# psh n[01-02] "shutdown -h now"
  • 远程开关机
 rpower all stat       # 查看状态
rpower all on # 远程开机
rpower all off # 远程关机
注意
  • 远程关机属于硬关机, 只有在系统无法登录,死机等情况才采用这种方式关机

检查共享目录挂载情况

[root@mgt ~]# psh all "df -h | grep share"
n01: mgt-ib:/share 29G 9.7G 20G 34% /share

如果没有挂载,只需要在节点上运行:

 mount /share

服务器 ipmi 管理

  • 下载安装 MobaXterm 软件, 登录 mgt 节点, 直接运行 firefox 启动浏览器

  • 输入节点的 ipmi 的 ip 地址, 用户名, 密码, 即可访问节点的 ipmi

提示
  • 常用于节点故障, 登录 ipmi 管理界面查看硬件日志
  • 常用于节点无法登录, 网络不通, 登录 ipmi 管理界面, 启动 ikvm 进行操作

调度系统 slurm 管理

  • 重启某个节点服务
systemctl restart slurmd
  • 重启整个 slurm 调度系统

    • 管理节点:
    systemctl restart slurmctld.service
    • 计算节点:
    psh all "systemctl restart slurmd"
  • 修改配置队列

    [root@mgt ~]# vim /etc/slurm/slurm.conf

    NodeName=n[01-15] CPUs=52 State=UNKNOWN
    PartitionName=compute Nodes=n[01-15] Default=YES MaxTime=INFINITE State=UP

    修改完后, 同步 slurm 配置:

    pscp /etc/slurm/slurm.conf all:/etc/slurm/