통합 검색어 입력폼

인공지능 성능 강화, 엔비디아 차세대 GPU 아키텍처 Ampere 발표

조회수 2020. 5. 15. 15:56 수정
번역beta Translated by kaka i
번역중 Now in translation
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

전문가용 GPU만 소개, 지포스 게이밍 그래픽카드 쪽은 공개 안해
엔비디아에서 GTC 디지털을 여는 젠슨 황 CEO의 기조 연설과 함께, 차세대 GPU 아키텍처인 앙페르(Ampere)를 공식 발표했다.


이번에 발표된 앙페르 아키텍처는 컴퓨팅 성능에 집중한 기존 볼타 아키텍처의 연장선 버전으로, 게임 환경에서 실시간 레이 트레이싱 구현을 강조해온 엔비디아의 게이밍용 앙페르 아키텍처는 공개되지 않았다.
앙페르 아키텍처에 적용된 텐서 코어는 볼타 - 튜링을 잇는 3세대 텐서 코어로, 기존 FP32 보다 최대 20배 빠른 AI 연산 성능을 발휘하며 FP16 수준의 정밀도를 구현한 TF32(Tensor Float32)를 지원한다. TF32는 기존 어플리케이션의 코드 변환 없이 그대로 사용할 수 있는 것이 특징이며, 이러한 튜닝을 통해 FP32 정밀도 AI 성능을 최대 20배까지 끌어 올렸다.


앙페르의 텐서 코어는 전세대 HPC 어플레케이션에서 최대 2.5배 연산 성능을 발휘할 수 있도록 FP64 연산도 지원한다.
앙페르의 또 다른 특징은 MIG(Multi-instance GPU)를 통해 작업 부하에 따라 단일 A100 GPU를 7개의 별도 GPU로 구획을 나눠 작업 정도에 따라 최적의 효율을 제공할 수 있도록 설계되었고, 멀티 GPU를 위한 NVLink도 업그레이드되어 기존 300GB/s에서 600GB/s로 두 배의 속도를 지원한다.
여기에 AI 수학(math) 특성을 활용하는 새로운 효율성 기술인 Structural sparsity를 통해 텐서 코어의 TF32/ FP16/ BFLOAT16/ INT8/ INT4 성능을 두 배로 향상 시켜준다. 이처럼 앙페르의 텐서 코어 효율이 높아지면서 볼타 및 튜링과 비교해 SM당 텐서 코어는 8개에서 4개로 줄어들었다.
한편, 이처럼 강화된 텐서 코어덕에 앙페르 아키텍처의 A100 코어는 볼타의 V100 코어 대비 FP16 연산 성능은 최대 3배, FP32 성능은 6배 강화되었고, 실제 HPC 작업에서도 최대 2.1배 성능을 제공하는 것으로 소개되었다.


단지, 이번에 발표된 앙페르 아케틱처는 HPC 시장 대응 모델인 영향인 듯 게이밍 성능을 추정할 수 있는 기타 아키텍처 관련 내용은 매우 제한적이어서 아쉬움을 남겼다.
하드웨어면에서 앙페르 아키텍처의 A100 코어는 TSMC 7nm 공정으로 생산되며, 볼타 V100 코어의 6.7배에 달하는 L2 캐시와 2.3배의 대역폭을 제공하며, 여기에 PCIe 4.0과 40GB의 HBM2를 지원해 VRAM 대역폭은 V100의 900GB/s서 1.6TB/s로 약 70% 확대되었다.

성능 향상을 꾀하면서 TSMC 7nm 공정 도입에도 A100 코어의 TDP는 400W에 달하며, 이는 V100의 300W에 비해 100W(약 33%) 높아진 수치다. SM은 V100의 80에서 A100은 108로 35% 많아졌다.
이 콘텐츠에 대해 어떻게 생각하시나요?