一、CUDA配置
进入 https://developer.nvidia.com/cuda-toolkit-archive
选择cuda12.1,手动下载,之后执行
chmod +x cuda_12.1.0_530.30.02_linux.runsudo ./cuda_12.1.0_530.30.02_linux.run --installpath=/mnt/xxg/RoboTwin/cuda/cuda-12.1安装完成后,需要配置临时环境变量,
export PATH=/mnt/xxg/RoboTwin/cuda/cuda-12.1/bin:$PATH
export LD_LIBRARY_PATH=/mnt/xxg/RoboTwin/cuda/cuda-12.1/lib64:$LD_LIBRARY_PATH一、显卡驱动安装
1.1、安装nvidia-cuda-toolkit 工具
sudo apt-get install nvidia-cuda-toolkit1.2、检查系统推荐显卡驱动,记录下recommend选项
sudo ubuntu-drivers devices结果显示如下:
== /sys/devices/pci0000:00/0000:00:01.0/0000:01:00.0 ==modalias : pci:v000010DEd000028E0sv0000103Csd00008BABbc03sc00i00vendor : NVIDIA Corporationdriver : nvidia-driver-535-open - distro non-freedriver : nvidia-driver-535-server-open - distro non-freedriver : nvidia-driver-535 - distro non-free recommended #记下推荐版本driver : nvidia-driver-525-server - distro non-freedriver : nvidia-driver-535-server - distro non-freedriver : nvidia-driver-525 - distro non-freedriver : nvidia-driver-525-open - distro non-freedriver : xserver-xorg-video-nouveau - distro free builtin1.3、添加驱动源
sudo add-apt-repository ppa:graphics-drivers/ppasudo apt-get update1.4、在Ubuntu系统中找到 软件和更新 选择 驱动

这里选择刚才记下的系统推荐的版本就好。不要选择带server的,那是服务器版本。
1.5、重启电脑
reboot1.6、查看驱动版本
nvidia-smi
注意:这里的CUDA版本是系统推荐的,并不是自己安装的
二、安装CUDA
安装前的准备 (至关重要)
-
安装依赖
: 确保编译环境和内核头文件已安装。
Terminal window sudo apt-get updatesudo apt-get install build-essential dkms linux-headers-$(uname -r) -
禁用 Nouveau 开源驱动
: Nouveau 驱动与 NVIDIA 官方驱动冲突,必须禁用。
a. 创建一个新的 modprobe 配置文件:
Terminal window sudo nano /etc/modprobe.d/blacklist-nouveau.confb. 在文件中添加以下内容:
blacklist nouveauoptions nouveau modeset=0c. 保存并退出 (Ctrl+X, Y, Enter)。
d. 更新内核 initramfs 并重启:
Terminal window sudo update-initramfs -usudo reboote. 重启后,验证 Nouveau 是否已禁用 (该命令应无任何输出):
Terminal window lsmod | grep nouveau
官网下载cuda软件包
点击 https://developer.nvidia.com/cuda-toolkit-archive

wgethttps://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda_11.4.4_470.82.01_linux.run安装
sudo sh cuda_11.4.4_470.82.01_linux.run
这里选择continue继续就好(这里我想的是要是之前没有安装显卡驱动的话,在这里安装的显卡驱动重启后会不会黑屏)

这里输入accept继续

这里因为我安装过显卡驱动了,我就没有安装第一项了,不知道如果这里安装了会怎么样,有哪位时间可以试一试。

最后会显示安装报告。
环境配置
sudo vim ~/.bashrc在文末添加以下信息
# 1. CUDA 根目录(注意这里没有 /bin)export CUDA_HOME=/usr/local/cuda-12.8
# 2. 动态库路径export LD_LIBRARY_PATH=$CUDA_HOME/lib64:$CUDA_HOME/extras/CUPTI/lib64:$LD_LIBRARY_PATH
# 3. 把 nvcc 所在目录加入 PATHexport PATH=$CUDA_HOME/bin:$PATH验证cuda安装是否成功:关闭当前命令行,并执行
source ~/.bashrcnvcc -V
卸载
Linux 上的卸载和安装更依赖命令行,但也更加灵活。我们将主要介绍使用 .run 文件进行安装的方法,因为它提供了最大的控制权。
步骤一:彻底卸载 (The Thorough Cleanse)
根据你当初的安装方式,选择对应的卸载方法。
-
方法A:如果使用官方
.run文件安装-
NVIDIA 提供了一个卸载脚本。找到你的 CUDA 安装目录(默认为/usr/local/cuda-X.Y),在其bin目录下执行:
Terminal window sudo /usr/local/cuda-X.Y/bin/cuda-uninstaller -
按照终端中的提示完成卸载。
-
-
方法B:如果使用包管理器 (
.deb/.rpm) 安装-
这是最干净的卸载方式。使用以下命令可以清除所有与 cuda 和 nvidia 相关的包:
Terminal window sudo apt-get --purge remove "*cublas*" "*cufft*" "*curand*" "*cusolver*" "*cusparse*" "*npp*" "*nvjpeg*" "cuda*" "nsight*"sudo apt-get --purge remove "*nvidia*"sudo apt-get autoremovesudo apt-get autocleansudo rm -rf /usr/local/cuda*这个命令会利用通配符匹配并彻底删除所有相关包及其配置文件。
-
-
手动清理残留 无论使用哪种方法,都建议进行手动检查:
-
删除安装目录:
sudo rm -rf /usr/local/cuda* -
清理环境变量
编辑你的 shell 配置文件(如~/.bashrc, ~/.zshrc),删除所有与 CUDA 相关的行,例如:
Terminal window ## export PATH=/usr/local/cuda-X.Y/bin${PATH:+:${PATH}}# export LD_LIBRARY_PATH=/usr/local/cuda-X.Y/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}#保存文件后,执行
Terminal window source ~/.bashrc(或相应的配置文件) 使其生效。
-
最后重启
sudo reboot 以确保所有内核模块和系统服务都已重置。
三、服务器后台训练
nohup bash collect_data.sh stack_blocks_two demo_point 1 > /home/myf/RoboTwin/Log/output.log 2>&1 &
-- 3359083通过 kill 命令来终止进程:
kill 3359083可以通过以下命令来检查进程是否已经停止:
ps -p 3359083Some information may be outdated