溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Linux下CUDA如何安裝和使用

發(fā)布時間:2022-01-26 10:47:04 來源:億速云 閱讀:539 作者:小新 欄目:開發(fā)技術

這篇文章將為大家詳細講解有關Linux下CUDA如何安裝和使用,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

CUDA是顯卡廠商NVIDIA推出的運算平臺。 CUD是一種由NVIDIA推出的通用并行計算架構,該架構使GPU能夠解決復雜的計算問題。

Linux下CUDA如何安裝和使用

CUDA 安裝步驟

一般而言,在 Linux 下安裝和使用 CUDA 的流程如下:

  1. 安裝 NVIDIA Driver,即顯卡驅動

  2. 安裝 CUDA Toolkit

  3. 使用 C/C++ 編譯器或 Python 擴展庫進行 GPU 加速的 CUDA 編程

本文后半部分將根據以上流程介紹 CUDA 安裝和使用的詳細步驟。


安裝 NVIDIA Driver 和 CUDA Toolkit

首先檢查系統(tǒng)是否有支持 CUDA 編程的 GPU??墒褂?/p>

 lspci | grep -i nvidia

命令來查看當前系統(tǒng)的 GPU 型號。

本人使用的操作系統(tǒng)由 Google Cloud Compute Engine 生成的包含 GPU 的虛擬機實例提供,系統(tǒng)版本為 Ubuntu 16.04 LTS,GPU 為 NVIDIA Tesla K80 (1個)。上述命令輸出

 00:04.0 3D controller: NVIDIA Corporation GK210GL [Tesla K80] (rev a1)

注意:與通常在本地主機上運行的虛擬機不同,這里的虛擬機直接運行在 Google 的云服務器上,可以為其申請 GPU 配額并安裝 NVIDIA Driver 和 CUDA Toolkit.

傳統(tǒng)上,安裝 NVIDIA Driver 和 CUDA Toolkit 的步驟是分開的,但實際上我們可以直接安裝 CUDA Toolkit,系統(tǒng)將自動安裝與其版本匹配的 NVIDIA Driver。下面我們講述安裝 CUDA Toolkit 的方法。

在安裝 CUDA Toolkit 前,要確保系統(tǒng)安裝了 gcc 和 make。如果希望使用 C++ 進行 CUDA 編程,需要安裝 g++。如果想要運行 CUDA 例程序,需要安裝相應的依賴庫。

 sudo apt update # 更新 apt
 sudo apt install gcc g++ make # 安裝 gcc g++ make
 sudo apt install libglu1-mesa libxi-dev libxmu-dev libglu1-mesa-dev freeglut3-dev # 安裝依賴庫

CUDA Toolkit 的下載頁面選擇系統(tǒng)版本和安裝方式,下載并運行 runfile。

Linux下CUDA如何安裝和使用CUDA Toolkit 下載頁面

下載 CUDA Toolkit (文件較大):

 wget http://developer.download.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda_10.1.243_418.87.00_linux.run

安裝 CUDA Toolkit (時間較長):

 sudo sh cuda_10.1.243_418.87.00_linux.run

安裝好 CUDA Toolkit 后,屏幕上將輸出:

 Driver:   Installed
 Toolkit:  Installed in /usr/local/cuda-10.1/
 Samples:  Installed in /home/abneryepku/
 
 Please make sure that
  -   PATH includes /usr/local/cuda-10.1/
  -   LD_LIBRARY_PATH includes /usr/local/cuda-10.1/lib64, or, add /usr/local/cuda-10.1/lib64 to /etc/ld.so.conf and run ldconfig as root

這表示 NVIDIA Driver 和 CUDA Toolkit 已安裝完畢。后半段安裝信息提示我們修改環(huán)境變量 PATH 和 LD_LIBRARY_PATH. 在 ~/.bashrc 文件中寫入

 # add nvcc compiler to path
 export PATH=$PATH:/usr/local/cuda-10.1/bin
 # add cuBLAS, cuSPARSE, cuRAND, cuSOLVER, cuFFT to path
 export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-10.1/lib64:/usr/lib/x86_64-linux-gnu

即可完成 CUDA 的配置。

注意事項:

  1. 環(huán)境變量 PATH 設置可執(zhí)行程序的搜索路徑,LD_LIBRARY_PATH 設置動態(tài)鏈接庫的搜索路徑

\2. CUDA, cuRAND 等動態(tài)庫均位于 /usr/local/cuda-10.1/lib64 路徑中。在 CUDA 10.0 以前,cuBLAS 也位于此路徑下,但在 CUDA 10.1 中,cuBLAS 被遷移到了 /usr/lib/x86_64-linux-gnu 中??梢酝ㄟ^運行

 sudo find / -iname libcublas*

來尋找 cuBLAS 動態(tài)庫的路徑。

\3. 使用 Anaconda 安裝的 CUDA Toolkit 不位于 lib64 路徑中,也不會產生沖突。


測試樣例程序

可以在路徑

 /usr/local/cuda-10.1/extras/demo_suite

路徑下找到一些樣例程序。deviceQuery 將輸出 CUDA 的相關信息:

 CUDA Device Query (Runtime API) version (CUDART static linking)
 Detected 1 CUDA Capable device(s)
 Device 0: "Tesla K80"
   CUDA Driver Version / Runtime Version          10.1 / 10.1
   CUDA Capability Major/Minor version number:    3.7
   Total amount of global memory:                 11441 MBytes (11996954624 bytes)
   (13) Multiprocessors, (192) CUDA Cores/MP:     2496 CUDA Cores
   GPU Max Clock rate:                            824 MHz (0.82 GHz)
   Memory Clock rate:                             2505 Mhz
   Memory Bus Width:                              384-bit
   L2 Cache Size:                                 1572864 bytes
   Maximum Texture Dimension Size (x,y,z)         1D=(65536), 2D=(65536, 65536), 3D=(4096, 4096, 4096)
   Maximum Layered 1D Texture Size, (num) layers  1D=(16384), 2048 layers
   Maximum Layered 2D Texture Size, (num) layers  2D=(16384, 16384), 2048 layers
   Total amount of constant memory:               65536 bytes
   Total amount of shared memory per block:       49152 bytes
   Total number of registers available per block: 65536
   Warp size:                                     32
   Maximum number of threads per multiprocessor:  2048
   Maximum number of threads per block:           1024
   Max dimension size of a thread block (x,y,z): (1024, 1024, 64)
   Max dimension size of a grid size    (x,y,z): (2147483647, 65535, 65535)
   Maximum memory pitch:                          2147483647 bytes
   Texture alignment:                             512 bytes
   Concurrent copy and kernel execution:          Yes with 2 copy engine(s)
   Run time limit on kernels:                     No
   Integrated GPU sharing Host Memory:            No
   Support host page-locked memory mapping:       Yes
   Alignment requirement for Surfaces:            Yes
   Device has ECC support:                        Enabled
   Device supports Unified Addressing (UVA):      Yes
   Device supports Compute Preemption:            No
   Supports Cooperative Kernel Launch:            No
   Supports MultiDevice Co-op Kernel Launch:      No
   Device PCI Domain ID / Bus ID / location ID:   0 / 0 / 4
   Compute Mode:
      
 deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 10.1, CUDA Runtime Version = 10.1, NumDevs = 1, Device0 = Tesla K80
 Result = PASS

CUDA 的各種特性:紋理內存 (texture memory)、常量內存 (constant memory)、共享內存 (shared memory)、塊 (block)、線程 (thread)、統(tǒng)一尋址 (unified addressing) 都包含在以上信息中。了解這些特性是進行 CUDA C/C++ 編程的基礎。

其它程序如 bandwidthTest, vectorAdd 等也將對 CUDA 的性能進行測試。


配置 nvcc 編譯器

nvcc 是 CUDA C/C++ 的編譯器,可以直接編譯包含 C++ 語法的 (.cu) 源文件,語法和 gcc 類似。nvcc 的路徑位于:

 /usr/local/cuda-10.1/bin

在命令行中輸入

 nvcc --version

可查看 CUDA C/C++ 編譯器 nvcc 的版本,本機結果如下

 nvcc: NVIDIA (R) Cuda compiler driver
 Copyright (c) 2005-2019 NVIDIA Corporation
 Built on Sun_Jul_28_19:07:16_PDT_2019
 Cuda compilation tools, release 10.1, V10.1.243

使用 nvcc 編譯包含了 CUDA Library 的源文件時,需要在 nvcc 命令中添加相應的 flag。例如,cuRAND 的 flag 為 -lcurand,cuBLAS 的 flag 為 -lcublas。如果不希望每次編譯時都加上這些動態(tài)庫的話,可以在 .bashrc 中寫入

 alias nvc="nvcc -std=c++11 -lcurand -lcublas”

然后使用 nvc 來進行 C/C++ 文件的編譯。


使用 nvcc 進行 CUDA C/C++ 編程

為了體驗 GPU 編程,測試一個簡單的 CUDA C++ 程序:兩個整型向量的加法

 #include #include 
 using namespace std;
 
 __global__ void add(int *a, const int *b){
     int i = blockIdx.x;
     a[i] += b[i];
 }
 
 int main(){
     const int N = 10; // number of elements
     int *a, *b, *temp, i;
     // malloc HOST memory for temp
     temp = new int [N];
     // malloc DEVICE memory for a, b
     cudaMalloc(&a, N*sizeof(int));
     cudaMalloc(&b, N*sizeof(int));
     // set a's values: a[i] = i
     for(i=0;i>>(a, b);
     // show a's values
     cudaMemcpy(temp, a, N*sizeof(int), cudaMemcpyDeviceToHost);
     for(i=0;i上述代碼使用的 CUDA 函數包括:cudaMalloc: 為指針申請 GPU 中的內存cudaMemcpy: CPU 和 GPU 之間的內存拷貝cudaFree: 釋放指針指向的 GPU 內存將上述代碼保存為文件 test.cu,并在命令行里輸入 nvcc -std=c++11 -o test test.cu即可生成名為 test 的可執(zhí)行文件。打開這個文件,屏幕上將輸出 0
 3
 6
 9
 12
 15
 18
 21
 24
 27注意:上述代碼僅為測試 CUDA C/C++ 程序之用,不具有運行效率上的參考性。使用 Numba 進行 CUDA Python 編程Numba 是用于高性能計算的 Python 擴展庫,它利用即時編譯機制 (JIT) 將 Python 和 NumPy 的一部分代碼轉換為機器指令,從而大幅提高程序的運行速度。推薦使用 Anaconda 管理包括 Numba 在內的各種 Python 擴展庫,因為它比 pip 方便許多。下載安裝 Anaconda: wget https://repo.continuum.io/archive/Anaconda3-2019.07-Linux-x86_64.sh
 sudo sh Anaconda3-2019.07-Linux-x86_64.sh用 Anaconda 安裝 CUDA Toolkit: conda install -c anaconda cudatoolkit使用 conda 安裝的 CUDA Toolkit 位于 Anaconda 中,并且只能用于 Python。C/C++ 和 Anaconda 使用的 CUDA Toolkit 相互獨立,可以同時存在且互不影響。使用 Anaconda 安裝的 CUDA Toolkit 的版本不能超過 NVIDIA Driver 支持的最新的 CUDA 版本。Numba 是 Anaconda 自帶的擴展庫之一。在命令行中輸入 numba -s可以查看硬件信息、操作系統(tǒng)信息、Python 版本、CUDA 版本信息。本機輸出結果為:硬件信息: __Hardware Information__
 Machine                                       : x86_64
 CPU Name                                      : broadwell
 Number of accessible CPU cores                : 4
 Listed accessible CPUs cores                  : 0-3
 CFS restrictions                              : None
 CPU Features                                  :
 64bit adx aes avx avx2 bmi bmi2 cmov cx16 f16c fma fsgsbase invpcid lzcnt mmx
 movbe pclmul popcnt prfchw rdrnd rdseed rtm sahf sse sse2 sse3 sse4.1 sse4.2
 ssse3 xsave xsaveopt操作系統(tǒng)信息: __OS Information__
 Platform                                      : Linux-4.15.0-1040-gcp-x86_64-with-debian-stretch-sid
 Release                                       : 4.15.0-1040-gcp
 System Name                                   : Linux
 Version                                       : #42~16.04.1-Ubuntu SMP Wed Aug 7 16:42:41 UTC 2019
 OS specific info                              : debianstretch/sid
 glibc infoPython 版本 __Python Information__
 Python Compiler                               : GCC 7.3.0
 Python Implementation                         : CPython
 Python Version                                : 3.7.3
 Python Locale                                 : en_US UTF-8CUDA 版本 __CUDA Information__
 Found 1 CUDA devices
 id 0            b'Tesla K80'                              [SUPPORTED]
                       compute capability: 3.7
                            pci device id: 4
                               pci bus id: 0
 Summary:
         1/1 devices are supported
 CUDA driver version                           : 10010
 CUDA libraries:
 Finding cublas from Conda environment
         named  libcublas.so.10.2.0.168
         trying to open library...       ok
 Finding cusparse from Conda environment
         named  libcusparse.so.10.1.168
         trying to open library...       ok
 Finding cufft from Conda environment
         named  libcufft.so.10.1.168
         trying to open library...       ok
 Finding curand from Conda environment
         named  libcurand.so.10.1.168
         trying to open library...       ok
 Finding nvvm from Conda environment
         named  libnvvm.so.3.3.0
         trying to open library...       ok
 Finding libdevice from Conda environment
         searching for compute_20...     ok
         searching for compute_30...     ok
         searching for compute_35...     ok
         searching for compute_50...     okNumba 的具體使用請參考官方文檔。使用 TensorFlow + CUDA 進行 GPU 加速的 Python 編程使用 conda 安裝 GPU 版本的 TensorFlow: conda install -c anaconda tensorflow-gpu在安裝過程中可能會提示環(huán)境寫入權限的錯誤: EnvironmentNotWritableError: The current user does not have write permissions to the target environment.
   environment location: /home/abneryepku/anaconda3
   uid: 1001
   gid: 1002可以使用修改文件夾權限的方法解決: sudo chown -R 1001:1002 /home/abneryepku/anaconda3安裝好 TensorFlow 后,為了查看 GPU 是否可用,進入 Python 解釋器環(huán)境,輸入: import tensorflow as tf
 tf.test.is_gpu_available()即可查看 GPU 在 TensorFlow 中是否可用。其它擴展庫如 PyTorch 可使用類似方法進行安裝。

關于“Linux下CUDA如何安裝和使用”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI