Question

我刚刚开始使用与Slurm Workload Manager一起运行的计算集群。我对计算期间计算节点如何与登录节点通信感到好奇，因为要运行的脚本与该脚本可能读取的其他文件一起存储在登录节点中。

例如，在工作词典中，浮点列表以可以装入pickle的格式存储。我希望在计算节点上运行的脚本如下所示：

import pickle
with open('data_list.db', 'rb') as source_file:
    data_list = pickle.load(source_file)

data_sum = sum(data_list)
print(data_sum)

如果我通过bash脚本提交了这个example.py脚本

#!/bin/bash
#SBATCH --job-name=test
#SBATCH --partition=the_partition
#SBATCH --nodes=1
#SBATCH --ntasks=6
python example.py

在登录节点和计算节点上究竟运行了什么？

Answer 1

Slurm希望登录节点和计算节点都可以访问同一网络文件系统（通常为NFS）或并行文件系统（BeeGFS，Lustre等），以便每个可以从任何计算节点在任何导出的目录中读写文件。

Answer 2

SLURM通过slurm控件守护程序在计算节点上生成您的作业，当您的作业启动时，它从您的主目录开始，除非您指定其他文件系统的路径（例如/ lustre）。登录节点和计算节点应该都具有相同的文件系统，但是通常无法在登录节点上运行程序。