Skip to content

常见问题

配置 Docker 镜像加速

修改 /etc/docker/daemon.json 添加 registry-mirrors 字段。示例为 1Panel 的镜像加速地址, 可根据实际情况修改。

json
{
    "registry-mirrors": ["https://docker.1panelproxy.com"]
}

在 Ubuntu 24.04 系统部署的被控端, 监控显示的核心数有问题

💡 提示

重启 lxcfs 前, 请先关闭该节点上的所有容器, 否则可能造成未知错误

Ubuntu 24.04 的 lxcfs 服务添加 --enable-cfs 特性

bash
vim /usr/lib/systemd/system/lxcfs.service

修改高亮行

ini
[Unit]
Description=FUSE filesystem for LXC
ConditionVirtualization=!container
Before=lxc.service
Documentation=man:lxcfs(1)

[Service]
ExecStart=/usr/bin/lxcfs /var/lib/lxcfs 
ExecStart=/usr/bin/lxcfs /var/lib/lxcfs --enable-cfs 
KillMode=process
Restart=on-failure
ExecStopPost=-/bin/fusermount -u /var/lib/lxcfs
Delegate=yes
ExecReload=/bin/kill -USR1 $MAINPID

[Install]
WantedBy=multi-user.target

重启 lxcfs 服务

bash
systemctl daemon-reload
service lxcfs restart

实例运行一段时间后, 运行 nvidia-smi 报错 Failed to initialize NVML: Unknown Error

💡 提示

在使用 v0.1.0 之前的版本, 可能会出现这个问题。v0.1.0 之后的版本,MEGREZ 已经进行尝试性修复,如果在使用 v0.1.0 之后的版本, 在输入下方命令后仍然出现这个问题, 请在 XShengTech/gpu-docker-api 仓库提交 issue

在节点服务器上执行以下命令

bash
sudo nvidia-ctk system create-dev-char-symlinks --create-all

nvidia-smi 命令需要很久才能执行完成

NVIDIA 的 Persistenced 服务未启动

临时解决办法

bash
sudo nvidia-persistenced --persistence-mode

永久解决办法

添加以下内容至 /etc/systemd/system/nvidia-persistenced.service

ini
[Unit]
Description=NVIDIA Persistence Daemon
Wants=syslog.target

[Service]
Type=forking
ExecStart=/usr/bin/nvidia-persistenced
ExecStopPost=/bin/rm -rf /var/run/nvidia-persistenced

[Install]
WantedBy=multi-user.target

然后执行以下命令

bash
systemctl daemon-reload
systemctl enable nvidia-persistenced
systemctl start nvidia-persistenced

基于 AGPL-v3 许可发布