다나와 기획전
압도적 처리능력 딥러닝 GPU PC 알아보기
01 인공지능 분류 인공지능 Artificial intelligence AI 인간의 계산 학습 등 지능적인 행동을 컴퓨터가 구현하는 기술 머신러닝 Machine Learning ML 컴퓨터가 데이터를 통해 학습하고 예측할 수 있는 인공지능의 하위 알고리즘 딥러닝 Deep Learning DL 인공신경망을 통해 복잡한 데이터를 학습 및 처리하는 기술 02 머신러닝 딥러닝 차이점 머신러닝 사람이 특징 추출 머신러닝 강아지 O 고양이 X 딥러닝 학습된 특징 추출 강아지 98% 고양이 2% 머신러닝은 학습을 위한 데이터를 사람이 준비하지만 딥러닝은 사람의 전처리 없이 스스로 처리
03 딥러닝 핵심부품 GPU 연산 데이터의 양이 많아 GPU를 통해 높은 Throughput처리량으로 연산 속도를 높이는 게 중요함. 코어 수와 그래픽 메모리 용량과 대역폭이 높을수록 좋으며, 데이터 센터급으로 대규모 데이터셋을 처리할 경우 HBM을 탑재한 GPU가 유리함. 필요한 정밀도에 따라 다르지만 FP16반정밀도 부동소수점 연산이 많이 활용되며, FP16의 TFLOPS 초당 1조개의 부동소수점 연산 값이 클 수록 연산 능력이 좋은 GPU임. 구분 CUDA 코어 Tensor 코어 메모리 메모리 용량 RTX 4090 16384 512 GDDR6X 24GB RTX 6000 Ada 18176 568 GDDR6 48GB RTX A6000 10752 336 GDDR6 48GB RTX A5500 10240 320 GDDR6 24GB RTX A5000 8192 256 GDDR6 24GB RTX 5000 3072 384 GDDR6 16GB RTX A4500 7168 224 GDDR6 20GB RTX A4000 6144 192 GDDR6 16GB RTX 4000 2304 288 GDDR6 8GB A100 80GB 6912 432 HBM2 80GB H100 PCle 14592 456 HBM2E 80GB L40S 18176 568 GDDR6 ECC 48GB 구분 메모리 대역폭 FP16 연산 성능 단위 TFLOPS 소비전력 기준가 단위 만원 RTX 4090 1008 GBs 660.6 450W 303 RTX 6000Ada 960 GBs 728.4 300W 1190 RTX A6000 768 GBs 309.6 300W 604 RTX A5500 768 GBs 230W 535 RTX A5000 768 GBs 230W 274 RTX 5000 448 GBs 89.2 265W 121 RTX A4500 640GBs 200W 209 RTX A4000 448GBs 140W 141 RTX 4000 416GBs 160W 140 A100 80GB 1935 GBs 624 300W 2860 H100 PCle 2000GBs 1513 350W 3990 L40S 864 GBs 733 350W 1080 쿠다코어 : GPU의 데이터 병렬처리 능력을 가늠할 수 있는 수치, 다만 전체적인 사양과 최적화에 따라 코어 수가 작더라도 높은 성능를 가질 수 있음 Tensor코어 : NVIDIA가 개발한 하드웨어 유닛으로 딥러닝에서 주로 사용되는 Tensor연산에 최적화 되어 기존 쿠다코어 보다 더 효율적인 연산이 가능함 메모리 용량 및 대역폭 : 메모리 용량과 대역폭이 충분하지 않으면, 데이터를 메모리에 로드해 처리하는 과정이 반복되거나 지연될 수 있어, 높은 메모리 용량과 대역폭이 유리함 소비전력 : 전력 소모량이 많으면 발열에 취약할 수 있어, 장비 운용 유지에 부담이 될 수 있음. 저전력의 높은 성능을 가진 제품일수록 가격이 높은 경향이 있음 가격 : 사용 목적상 고성능의 높은 가격대로, 연산 데이터와 그 수준에 따라 여러 대의 GPU가 요구될 수 있어, 가격과 성능을 비교하여 합리적인 구매가 필요함 잠깐! RTX 4090 가격차이 이유 살펴보기 NVIDIA에서 칩셋을 받아 제조사가 재생산하는 제품을 비레퍼런스라고 하며, RTX 4090은 비레퍼런스 제품이 다수 있음 비레퍼런스 제품은 쿨링 클럭 속도 디자인 등의 차이로 제조사별 라인업별로 가격이 다름 MSI 지포스 RTX 4090 게이밍 X 슬림 D6X 24GB 트라이프로져3 부스트클럭 2625MHz OC클럭 2640MHz 3,458,990원 MSI 지포스 RTX 4090 슈프림 X D6X 24GB 트라이프로져3S 부스트클럭 2595MHz OC클럭 2610MHz 2,998,510원 동일 제조사의 RTX 4090이지만 디자인과 클럭 속도 등의 차이로 가격이 다름
04 딥러닝 작업 수준별 GPU 성능표 구분 Tensor 코어 연산 성능 INT8 FP16 TF32 FP64 소비전력 기준가 단위 만원 RTX 4090 1321.2 660.6 165.2 450W 303 RTX 6000 Ada 1457 728.4 364.2 300W 1190 RTX A6000 619.4 309.6 154.8 300W 604 RTX A5500 230W 535 RTX A5000 230W 274 RTX 5000 178.4 89.2 265W 121 RTX A4500 200W 209 RTX A4000 140W 141 RTX 4000 160W 140 A100 80GB 1248 624 312 19.2 300W 2860 H100 PCle 3026 1513 756 51.2 350W 3990 L40S 1466 733 366 350W 1080 INT8 8-bit 정수 연산으로 메모리 사용량이 적고, 연산 속도가 빠르지만 정밀도는 낮아 메모리 구성의 제한이 있는 모바일 환경에서 실시간 추론에 유용함 활용 SW 예시 TensorFlow Lite FP16 INT8보다 높은 정밀도의 부동소수점 연산으로 이미지 분류나 자연어 처리 등의 추론 작업에서 FP32에 비해 빠른 연산을 수행할 수 있음  활용 SW 예시 Hugging Face Transformers TF32 NVIDIA에서 개발한 부동소수점 연산으로 FP32의 정밀도를 유지하며, FP16처럼 메모리 사용량을 줄이고 연산 속도를 높여 클라우드 서비스와 같은 대규모 데이터를 다루는 모델에 유용함 활용 SW 예시 TensorFlow FP64 : 높은 정밀도의 부동소수점 연산으로 연산 속도가 느려 물리학, 우주항공 분야 등의 정밀한 과학적 계산이 필요한 분야에서 유용함 활용 SW 예시 PyTorch Lightning TIP 데이터의 크기와 요구되는 정밀도의 따라서 중요하게 살펴야할 연산 성능이 달라짐 성능과 더불어 전력, 가격 등의 요소를 비교해 구매하는게 합리적 05 RTX 4090 기준 비교 구분 TENsor 코어 4090 대비 연산성능 INT8 FP16 TF32 4090 대비 소비전력 4090 대비 가격차이 RTX 6000 Ada 1.1배 1.1배 2.2배 0.7배 3.9배 RTX A6000 0.5배 0.5배 0.9배 0.7배 2.0배 RTX A5500 0.5배 1.8배 RTX A5000 0.5배 0.9배 RTX 5000 0.1배 0.1배 0.6배 0.4배 RTX A4500 0.4배 0.7배 RTX A4000 0.3배 0.5배 RTX 4000 0.4배 0.5배 A100 80GB 0.9배 0.9배 1.9배 0.7배 9.4배 H100 PCle 2.3배 2.3배 4.6배 0.8배 13.2배 L40S 1.1배 1.1배 2.2배 0.8배 3.6배 연산성능 1이상이 유리 RTX 6000 Ada A100 H100 L40S가 더 좋은 성능을 보임 소비전력 1미만이 유리 모든 GPU가 더 좋은 소비전력을 보임 가격차이 1미만이 유리 연산성능이 더 좋은 GPU들이 가격에선 불리함 정리 RTX 6000 Ada와 L40S가 연산성능이 가격차이와 비교해 상대적으로 차이가 적음 구성될 파워의 출력에 따라 RTX 4090을 2대 장착하면 위 GPU도 연산성능이 역전될 수 있음 표에선 제시되지 못 했지만 FP64 연산이 요구될 경우 이를 지원하는 H100과 A100이 유리 0 0 0 0
06 내게 가장 유리한 GPU와 제품 형태 고르기 GPU 추천 구분 내용 RTX 4090 이미지나 자연어 처리가 유리한 PF16 수준의 연산을 주로 처리하며, 전력 환경이 여유롭고, 다수의 GPU 구성을 고려할 경우 추천 RTX 6000 Ada L40S 클라우드 서비스와 같은 대규모 데이터를 다루는 TF32 수준의 작업을 주로 처리하며, 낮은 전력소비량이 필요한 경우 추천 H100 A100 항공우주, 물리학 분야 등의 정밀도 높은 FP64 연산이 필요한 경우 추천 제품 형태 추천 구분 타워형 렉형 형태 부피 부피가 커 다수 배치하기 불리 부피가 작아 다수 배치 유리 확장성 데스크탑용 부품 활용 가능 크기로 인해 GPU등 일부 부품은 데스크탑용 호환이 안될 수 있음 유지보수 유지보수 난이도가 낮음 주로 여러 대를 통합운영해 전문적인 유지보수가 필요 전력 랙형에 비해 운영 수가 적어 상대적으로 전력 부담이 덜함 여러 대를 운영하다 보니 전력 효율과 안정성 중요 가격 구성에 따라 차이가 있지만 랙형에 비해 가격이 낮음 전문적인 용도에 의해 생산되어 다소 가격이 높음 추천환경 개인 또는 소규모 사업장 대규모 데이터 센터급 사업장 딥러닝 작업별 대표 SW 이미지 및 비디오 처리 소프트웨어 OpenCV , MATLAB, scikit-image 딥러닝 프레임워크 Keras 자연어 처리 NLP 모델 훈련 소프트웨어 NLTK, SpaCy, Gensim 딥러닝 프레임워크 Hugging Face Transformers 대규모 데이터셋 처리 소프트웨어 Apache Hadoop, Apache Spark, Dask 딥러닝 프레임워크 Apache MXNet 물리 우주항공 데이터 처리 소프트웨어 AstroML, Geant4 딥러닝 프레임워크 PyTorch Lightning 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

이미지형 상품 목록

RTX4090 2WAY 더보기

이미지형 상품 목록

RTX4090 4WAY 더보기

리스트형 상품 목록

RTX4090 6WAY 더보기

이미지형 상품 목록

RTX 6000 ADA / L40S 더보기

이미지형 상품 목록

RTX 6000 ADA / L40S 2WAY 더보기

이미지형 상품 목록

H100 / A100 더보기

이미지형 상품 목록

H100 / A100 2WAY 더보기