常见问题
1、请问可以给我 sudo 权限吗?
root 或者 sudo 权限,任何情况下,都不会给用户。
如果你是想执行 sudo yum install 这样的操作,武大超算系统绝大部分依赖包都已经安装,你只需要跳过这一步即可。
如果你是想执行 sudo apt install,请注意武大超算系统使用的是 Rocky Linux 而不是 Debian/Ubuntu,你要安装的包在 Rocky 里可能叫另外一个名字。同样因为绝大部分依赖包都已经安装,你只需要跳过这一步即可。
如果你后续的安装使用步骤提示确实缺少依赖包,请把这个依赖包的名字告诉超算管理员,让管理员来安装。
用户需要 root(sudo) 权限的另外一大原因是在安装软件的时候,没有修改默认的安装路径(通常是 /opt /usr/local 这样需要 root 权限的系统目录)。要解决这类问题,如果是从源代码编译软件,一般是在 configure 的时候使用 --prefix= 这个选项把安装目录指定到用户自己的目录下。如果是安装型的软件,在安装向导里修改默认的安装目录为用户自己的目录。
2、SSH 连接时报 WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!
这是 SSH 安全机制的一部分,提醒你远程主机的
指纹发生了变化。在超算中心或运维环境中,这通常是因为节点重装了系统、更换了硬件或 IP 地址被重新分配给了新机器。# 删除本地旧指纹 # Linux 使用 (Terminal) / Windows10及以上版本 使用 PowerShell(或 CMD) ssh-keygen -R 服务器IP或域名 # 示例: ssh-keygen -R g0101 # 执行后,下次连接时 SSH 会提示你重新确认指纹,输入 yes 即可。
3、登录环境乱了,只显示 -bash-4.2$ 怎么办?
这是因为用户删除了 .bashrc 或者 .bash_profile 文件。
可以从系统复制一份来恢复
cp /etc/skel/.bash* ~/退出,然后重新登录。
4、小文件数量太多超过存储限额了怎么办?
深度学习数据集包含数量巨大的小文件,如果文件数量超过了存储限额,用户需要改变数据集的存储方式。
可以使用 hdf5 或 lmdb 格式,请阅读入门教程。
5、project,dat01,scratch 目录不见了怎么办?
/project /project2 文件系统作用相同,用户有且仅有其中一个文件系统的个人目录。
请在以下命令中选择对应的来运行,恢复目录链接。
# /project /project2 文件系统作用相同,用户有且仅有其中一个文件系统的个人目录。 # 依次执行ls命令,判断自己是分配在三套文件系统的哪一个目录。 ls /project/`whoami` # 没有提示 No such file or directory ,则 执行 ln -s /project/`whoami` ~/project 恢复。 ls /project2/`whoami` # 没有提示 No such file or directory ,则 执行 ln -s /project2/`whoami` ~/project 恢复。 ln -s /project/`whoami` ~/project ln -s /project2/`whoami` ~/project # 免费用户没有scratch存储空间 ln -s /scratch/`whoami` ~/scratch
6、如何查看导师(付费)账号下资源及使用情况`
在登录节点执行命令 accountInfos + 导师(付费)账号
# 例如导师 (付费) 账号为 zhangsan 的查询方法 [username@swarm02 ~]$ accountInfos zhangsan
7、MPI 程序启动报错 OFI addrinfo() failed
使用 Intel 2019 编译的程序,在 hpxg hpib 运行的时候,需要在任务脚本里设置环境变量
export FI_PROVIDER=verbs
8、提交任务脚本时报 sbatch: error: Batch job submission failed: Invalid account or account/partition combination specified
用户试图把任务提交到某个分区,但是用户不具有此分区权限的时候,就会报这个错误。有以下几种常见的情况:
1、免费用户只能使用 hpxg 分区,提交到其它分区会报此错误。
2、开通了 hpib 但是没有开通 gpu 的用户,提交到 gpu 会报此错误。
3、教职工账号没有使用 hpxg 分区的权限,需要开通付费才能使用。
9、无法在登录节点启动matlab图形化界面,显示被killed`
因为资源占用过大,耗时较长的作业禁止在登录节运行。
# 提交到计算节点启动图形化matlab [username@swarm02 ~]$ srun --pty --x11 matlab