大约 2 分钟
终端登录
ssh 终端登录管理登录节点入口ip, 端口号(缺省 22)
vim job.slurm
编辑修改作业脚本sbatch job.slurm
提交作业
启动 gui 程序
- 下载安装
MobaXterm
软件, 登录后, 直接运行 gui 程序即可.
作业提交
- 编写 作业脚本, 如下示例
[user1@login ~]$ cd work01/ [user1@login work01]$ cat soft.slurm #!/bin/sh #SBATCH --partition=cpu #SBATCH --job-name=cpujob #SBATCH --nodes=2 #SBATCH --ntasks-per-node=4 module load compiler mkl mpi mpirun -np $SLURM_NPROCS hello | tee output
[user1@login ~]$ cd work01/ [user1@login work01]$ cat cluster.slurm #!/bin/sh #SBATCH --partition=gpu #SBATCH --job-name=gpujob #SBATCH --nodes=2 #SBATCH --ntasks-per-node=4 #SBATCH --gres=gpu:4 #SBATCH --gpus-per-task=1 module load compiler mkl mpi module load cuda/11.6 module load gpujob mpirun -np $SLURM_NPROCS gpujob | tee output
cat job.slurm #!/bin/bash #SBATCH --job-name=test #SBATCH --output=test_%j.out #SBATCH --error=test_%j.err #SBATCH --partition compute #SBATCH --nodes=1 #SBATCH --tasks-per-node=2 #SBATCH --cpus-per-task=1 python job.py sbatch job.slurm
cat pwmat.slurm #!/bin/bash #SBATCH -o job.%j.out #SBATCH --partition=compute #SBATCH -J myFirstMPIJob #SBATCH --nodes=2 #SBATCH --ntasks-per-node=32 # 导入MPI运行环境 module load intel/2017.1 # 导入MPI应用程序 module load pwmat/2023.12.25 # 生成 machinefile srun hostname -s | sort -n >slurm.hosts # 执行MPI并行计算程序 mpirun -n 64 -machinefile slurm.hosts PWmat > log sbatch pwmat.slurm
cat pwmat.slurm #!/bin/sh #SBATCH --partition=3080ti #SBATCH --job-name=H2relax #SBATCH --nodes=2 #SBATCH --ntasks-per-node=4 #SBATCH --gres=gpu:4 #SBATCH --gpus-per-task=1 module load compiler mkl mpi module load cuda/11.6 module load pwmat mpirun -np $SLURM_NPROCS PWmat | tee output sbatch pwmat.slurm
srun --time=1:00:00 --nodes=1 --ntasks=32 --partition=gpu --pty bash
提示 tip
module ava
查看集群里 module 的版本, 对上面脚本做相应修改sinfo
查看集群里 partition 信息, 对所使用分区做相应修改
准备作业输入文件, sbatch 提交作业
sbatch job.slurm
提示 tip
- 禁止使用
yum update
或yum upgrade
升级系统, (特别是 glibc, kernel 等系统核心组件) - 尽量不要使用 root 超级用户, 除非是添加用户,维护系统等必须要使用 root 权限的操作.
- 具备一定的 linux 系统管理经验的用户才可以使用 root 进行维护工作, 维护完退出 root 账号.
注意 Caution
- 禁止用户直接在登陆节点上运行计算程序
- 请不要直接在管理登录节点进行 TB 级别数据拷贝!!!