mega run:配置mega环境 2024-04-23 00:44:33 0 0 第一次尝试按照官网环境配置一步一步配置报错 运行train_net的时候报ImportError: libcudart.so.10.1: cannot open shared object file: No such file or directory 环境 第二次尝试下载cuda版本10.1及对应的pytorch环境 下载cuda10.1按照官网教程,没有下载driver,同时安装了补丁 运行train_net的时候报ImportError: libtorch_cpu.so: cannot open shared object file: No such file or directory 这可能是因为pytorch没有安装完整 所以运行 conda install pytorch1.3.1 torchvision0.4.2 cudatoolkit=10.1 -c pytorch 重新安装apex 报 Unknown CUDA arch (8.6) or GPU not supported 这个错误 然后尝试减低算力,则报这个错误 csrc/layer_norm_cuda_kernel.cu:4:10: fatal error: ATen/cuda/DeviceUtils.cuh: No such file or directory #include “ATen/cuda/DeviceUtils.cuh” ^~~~~~~~~~~~~~~~~~~~~~~~~~~ compilation terminated. error: command ‘/usr/local/cuda-10.1/bin/nvcc’ failed with exit status 1 后查资料这个错误的原因主要是cuda版本太低 ValueError: Unknown CUDA arch (8.6) or GPU not supported 1 说白了就是,CUDA版本过低,GPU版本过高,不匹配 需换用高版本的CUDA 而高版本的cuda,没有适配的1.3的pytorch, 所以思考尝试使用最新的pytorch版本 第三次尝试下载cuda10.2 安装最新版本的pytorch cuda10.2 安装步骤 1、下载run安装包,并运行runwget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.runsudo sh cuda_10.2.89_440.33.01_linux.run 弹出框输入accpet,都选yes就可 2、安装两个补丁,补丁在官网下载 下载完成后,在下载的目录下运行sudo sh cuda_10.2.1_linux.runsudo sh cuda_10.2.2_linux.run 2、安装pytorch(最新版本)conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch 3、重新配置apex环境 配到是配成功了,然后build mega 报错RuntimeError: Error compiling objects for extension 尝试cuda10.2 低版本的pytorch=1.5.0 仍然会出现ValueError: Unknown CUDA arch (8.6) or GPU not supported这个问题 用cuda11.0 会出现算力不够,该问题能解决 pytorch=1.7.1 export TORCH_CUDA_ARCH_LIST=“7.5” 但是后面set.up mega时会出现 /home/featurize/Gao/mega.pytorch/mega_core/csrc/cuda/deform_conv_cuda.cu(200): error: identifier “AT_CHECK” is undefined RuntimeError: Error compiling objects for extension 好多博客说时pytorch版本太高了? 总结: 还是自己太笨了,官网让你怎么装你就怎么装呗,偏偏乱装。一是没经验,不知道可以自己装cuda,换cuda环境。二是不注重cuda于pytorch版本匹配问题。三是显卡!!!有的显卡版本太高会出现,cuda配不上显卡,例如cuda10.0。 最后成功安装步骤 所有步骤按照官网即可,主要是cuda=10.0和pytorch=1.3.0版本对了即可。 显卡用2080ti 官方安装链接:https://github.com/Scalsol/mega.pytorch/blob/master/INSTALL.md 同时还参考了好人老大哥的: https://blog.csdn.net/blink_cao/article/details/117628095 cuda10.0 用nvcc --version查询你的cuda版本,如果版本为10.0,请跳过这一步,不是则老老实实安装cuda10.0版本 官网下载cuda10.0 根据自己电脑配置选择,最后选runfile 下载安装包和补丁 也可wget+链接 在命令行下载 完成后运行:sudo sh cuda_10.0.130_410.48_linux.run(不装driver,其他yes)sudo sh cuda_10.0.130.1_linux.run(安装补丁,同安装包操作一样) 之后把自己的cuda环境切到cuda10.0sudo ln -snf /usr/local/cuda-10.0 /usr/local/cuda 最后nvcc --version 查询版本是否正确 安装pytorch conda 方式安装conda install pytorch=1.3.0 torchvision cudatoolkit=10.0 -c pytorch pip方式安装:版本查询链接(官网教程python=3.7)https://download.pytorch.org/whl/torch_stable.htmlwget https://download.pytorch.org/whl/cu100/torch-1.3.0%2Bcu100-cp37-cp37m-linux_x86_64.whl(下载相应torch)wget https://download.pytorch.org/whl/cu100/torchvision-0.4.1%2Bcu100-cp37-cp37m-linux_x86_64.whl(下载相应torchvision)pip install torch-1.3.0+cu100-cp37-cp37m-linux_x86_64.whlpip install torchvision-0.4.1+cu100-cp37-cp37m-linux_x86_64.whl 最后安装apex问题 报错: Error: command ‘/usr/local/cuda-10.0/bin/nvcc’ failed with exit status 1 参考这个: http://www.cxyzjd.com/article/qq_22565865/107532012 over!!!! 收藏(0)