在Ubuntu系統(tǒng)中搭建Slurm集群的步驟如下:
安裝Slurm軟件包: 在所有節(jié)點(diǎn)上安裝Slurm軟件包,可以使用以下命令:
sudo apt-get update
sudo apt-get install slurm-wlm
配置Slurm集群:
/etc/slurm/slurm.conf
,配置節(jié)點(diǎn)信息、用戶信息、隊(duì)列信息等。sudo mkdir -p /var/spool/slurmctld
sudo mkdir -p /var/spool/slurmd
sudo chown slurm: /var/spool/slurmctld
sudo chown slurm: /var/spool/slurmd
啟動(dòng)Slurm服務(wù): 在主節(jié)點(diǎn)上啟動(dòng)Slurm控制節(jié)點(diǎn)服務(wù):
sudo systemctl start slurmctld
在所有計(jì)算節(jié)點(diǎn)上啟動(dòng)Slurm工作節(jié)點(diǎn)服務(wù):
sudo systemctl start slurmd
測試Slurm集群:
sinfo
命令查看集群狀態(tài):sinfo
srun
命令提交任務(wù)進(jìn)行測試:srun -N2 hostname
以上是在Ubuntu系統(tǒng)中搭建Slurm集群的基本步驟,根據(jù)實(shí)際情況可能還需要進(jìn)行其他配置和調(diào)整。建議參考Slurm官方文檔以獲取更詳細(xì)的配置和使用說明。