인공지능 개발 환경 이걸로끝(NVIDIA 드라이버 설치부터 CUDA까지)

코딩하는코알라/AI

by 룰루랄라코알라 2024. 3. 14. 10:10

기본적으로 AI 개발 환경 세팅시 Linux 기반으로 진행을 시작한다.

이번설치 기본적인 구성은 아래와 같다.

<<설치 환경>>

Ubunru 22.04.4 lts

TU102 Geforce RTX 2080 Ti X 2

시간이 지난 그래픽 카드지만 2080TI 기준으로 설치 진행 할것이다.

우선 설치하면서 몇번을 재설치했는지 모르겠다.

자신이 설치할 PyTorch or Tensorflow 먼저 확정을 해놓고 거기에 맞는 버전을 설치 해야한다.

TIP : 그래픽카드 지원 드라이버를 확인해봐야 되지만 PyTorch or Tensorflow는 자신이 설치할수있는 최신버전기준으로 찾는거 추천한다.

1. PyTorch or Tensorflow 버전 확인

아래 경로에 들어가서 우선 확인만 하고 CUDA,NVIDIA 버전을 찾아야 한다.

PyTorch : https://pytorch.org/get-started/previous-versions/

Previous PyTorch Versions

Installing previous versions of PyTorch

pytorch.org

Tensorflow : https://www.tensorflow.org/install/source?hl=ko#tested_build_configurations

소스에서 빌드 | TensorFlow

이 페이지는 Cloud Translation API를 통해 번역되었습니다. 소스에서 빌드 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요. 소스에서 TensorFlow pip 패키지를 빌드하

www.tensorflow.org

2. CUDA 버전 및 NVIDIA드라이버 버전 찾기

GPU에 맞는 CUDA 찾기

CUDA - Wikipedia

From Wikipedia, the free encyclopedia Parallel computing platform and programming model CUDA is a parallel computing platform and application programming interface (API) that allows software to use certain types of graphics processing units (GPUs) for acce

en.wikipedia.org

위 사이트에 접속을 한후 스크롤을 내리던가 옆 GPUs supported 카테고리로 이동을 하면

CUDA SDK 표와 compute Capability 표가 있을것이다.

ex) GPU : 2080Ti 버전을 기준으로 compute Capability : 7.5 를 찾았다면

CUDA SDK 버전은 7.5가 포함된건 이후 버전은 모두 설치가 가능하다 즉 CUDA SDK 10.0~12.4 까지 가능하다.

하지만 여기서 무조건 높은버전을 설치하면 안된다.

PyTorch or Tensorflow 가 지원하는 버전으로 설치해야된다. PyTorch 기준 CUDA 12.1 설치를 하면된다.

이제 NVIDIA 드라이버 설치할 버전을 확인해보자

# NVIDIA 드라이버 설치

https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html#cuda-major-component-versions

1. CUDA 12.4 Release Notes — Release Notes 12.4 documentation

BLAS level 2 and 3 functions might not treat alpha in a BLAS compliant manner when alpha is zero and the pointer mode is set to CUBLAS_POINTER_MODE_DEVICE. The expected behavior is that the corresponding computations would be skipped. You may encounter the

docs.nvidia.com

위 링크로 들어가보면 CUDA 버전에 맞는 Driver 버전을 확인할수있다. 어려워 할거 없이 CUDA 12.1 은 Driver 530 버전이상으로 설치하면된다.

자기에 맞는 버전들을 확인 했으면 이제 설치를 진행해보자.

3. NVIDIA 드라이버 및 CUDA 설치

1. NVIDIA 기존 드라이버 삭제 및 드라이버 설치

## NVIDIA 모듈 확인 
lsmod | grep nvidia

# 사용중인 NVIDIA 모듈 Kill 
sudo lsof /dev/nvidia*

# 정상 Kill 인지 확인 
sudo rmmod nvidia_drm 
sudo rmmod nvidia_modeset 
sudo rmmod nvidia_uvm 
sudo rmmod nvidia

# NVIDIA 삭제
sudo apt --purge remove *nvidia*
sudo apt remove --purge nvidia\*
sudo apt remove --purge nvidia*
sudo apt remove --purge nvidia-*
sudo apt remove --purge nvidia-\*
sudo apt remove --purge libvidia*
sudo apt autoremove
sudo apt autoclean

# 삭제 확인 후 잡히는게 있으면 
sudo dpkg -l | grep nvidia
# 다시 삭제를 해준다. 
sudo apt-get remove --purge {프로그램 Name}

# 추천드라이버 확인
ubuntu-drivers devices

# 특정 드라이버 설치
sudo apt install {드라이버 Name}

# 시스템 재시작
sudo reboot

# 드라이버 확인
nvidia-smi

2. CUDA 설치

아래 페이지로 들어가서 나한테 맞는 쿠다버전을 선택을 하면 된다.

https://developer.nvidia.com/cuda-toolkit-archive

CUDA Toolkit Archive

Previous releases of the CUDA Toolkit, GPU Computing SDK, documentation and developer drivers can be found using the links below. Please select the release you want from the list below, and be sure to check www.nvidia.com/drivers for more recent production

developer.nvidia.com

자신에게 맞는 유형을 선택을 해준다 우선 우리는 드라이버를 설치를 했기때문에 runfile 로 진행을 해주면 된다.

그리고는 매우 쉽다.

친절하게 나온 명령을 그대로 복사해서 Terminal에 넣어준다.

그리고는 시간이 좀 지나면 Continue 가 나오는데 그냥 엔터키를 누르고 아래 화면이 나오면 accept 해준다.

아래 화면일때는 이미 드라이버가 설치 되었기 때문에 Driver 는 X 표를 해제 해준다.

설치 확인 nvcc -verison 을 입력하면 아래와 같이 확인 가능하고 없으면 설치되지 않은것

만약에 설치가 됬는데 안보여 진다면 sudo reboot을 해보고 이후 Path 경로를 잡아주자.

Terminal에 아래 명령어를 입력

gedit ~/.bashrc

note 마지막에 각자에 맞는 path를 입력

export CUDA_HOME=/usr/local/cuda-12.1
export PATH=/usr/local/cuda-12.1/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

이후 source ~/.bashrc 입력 해주고 다시 nvcc -version 을 하면 보일것이다.

TIP 여기서 nvcc -v 을 해서 본 쿠다 버전과 nividia-smi 를 해서 본 쿠다 버전이 다를수도 있으니 그건 걱정 안해도 된다.

'코딩하는코알라 > AI' 카테고리의 다른 글

OpenWebUi-MCPO-MCP 도구 연동 (0)	2025.04.21
Rate limit reached for gpt-4o-mini in organization 오류처리?! (0)	2024.10.02
딥러닝 기본 용어 정의 (0)	2024.02.05
로지스틱 , 소프트맥스, One-hot Encoding 이란 (0)	2024.02.02
AI 학습을 위한 기본지식_선형회귀 (0)	2024.02.01