AMD 쓰레드리퍼 그 성능은?

조회수 2018. 5. 14. 19:01 수정
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

AMD RYZEN THREADRIPPER 1950X/1920X

지난 2017년 8월 3일 오후 10시, AMD는 RYZEN THREADRIPPER(이하 스레드리퍼)에 대한 언박싱 NDA를 공식 해제하면서, 여러 매체를 통해 일괄적으로 언박싱 기사나 동영상이 노출되었습니다. 플레이웨어즈 역시 시간을 맞추어 기사를 업로드했는데, 리뷰어 샘플치고는 "프리미엄 패키지"라는 말이 잘 어울리는 수준 높은 샘플이라는 평을 받았습니다. 라이젠 시리즈부터 시작된 높은 퀄리티의 리뷰어 샘플이 이번 스레드리퍼에 와서 절정을 맞이하는 것 같아 필자 역시 흥분의 도가니였는데, 그만큼 제품의 실성능에 대한 궁금증이 더욱 컸습니다.

* AMD RYZEN THREADRIPPER 1950X/1920X : 리뷰어 패키지 언박싱 바로가기 - http://playwares.com/pcreview/54741579

스레드리퍼는 최대 16코어 32스레드를 지닌 고성능 프로세서로, 사실상 인텔에만 존재하다시피 했던 HEDT 시장을 공략하기 위해서 AMD가 새롭게 도전하는 첫 HEDT 프로세서이기도 합니다. 2개의 다이를 묶는 MCM(Multi-Chip Module) 형태로 구성되어 있지만, 내부적으로 인피니티 패브릭(Infinity Fabric, 이하 IF)으로 묶여 있고 MCM 구조의 한계점을 극복하기 위한 여러 기술을 삽입하면서 원칩 구조로 출시된 점이 인상적입니다. SCM(Single-Chip Module) 형태의 칩과 비교했을 때 MCM 칩은 많은 접점을 가진다는 장점을 지니고 있는데, 이를 증명이라도 하듯 스레드리퍼는 기존 세대에서 찾아보기 드물 정도로 거대한 PCB 크기와 함께 4094개의 핀 배열을 지닌 LGA 형태로 제조되어 강렬한 인상을 줍니다.


여기에 늘어난 크기만큼 메모리 채널과 PCIe 3.0 레인 수 역시 대폭 늘어났습니다. 기존의 라이젠 프로세서가 2개의 메모리 채널와 PCIe 3.0 24레인을 지녔다면, 스레드리퍼는 4개의 메모리 채널과 PCIe 3.0 64레인을 지녀 뛰어난 확장성을 보여줍니다. L3 캐시 역시 라이젠 시리즈 중 상위 라인업이 16MB를 제공한다면, 스레드리퍼는 그 2배인 32MB를 제공한다는 특성을 지니고 있습니다. 여러 가지 측면에서 인텔 HEDT 라인업과 비교해보더라도 손색 없는 수준을 갖추었다고 볼 수 있습니다.

스레드리퍼에 대한 간략 소개를 드렸는데, 아마 이 글을 보고 있는 모든 이들이 "그래서 성능은?"이라는 질문을 품고 있으리라 생각합니다. 스레드리퍼 프로세서에 대한 소개는 다음 페이지에서 만날 수 있으니, 소개글은 적정선에서 마무리하고자 합니다. 본 리뷰에서는 16코어 32스레드를 지닌 1950X와 12코어 24스레드를 지닌 1920X를 활용하여 테스트를 진행하며, 대조군으로는 X299 시스템과 Z270 시스템, 그리고 AM4 시스템을 각각 하나씩 준비했습니다.

HEDT 라인업은 아마도 "생산성"이 높은 비중을 차지하겠지만, 개인 사용자용으로 출시되는 라인업인 만큼 자주 활용되는 소프트웨어나 게임에 대한 성능 역시 궁금해하실 분들이 많으리라 생각됩니다. 이에 맞추어 플레이웨어즈에서는 다양한 성능 벤치마크를 진행했습니다. 스레드리퍼용 쿨러가 시중에 출시되지 않은 시점이기 때문에 테스트를 진행하기 위해서는 리뷰어 샘플로 제공된 3열 AIO 수냉 쿨러를 활용해야 했으며, 이로 인해 기존 리뷰와 CPU 온도 등에서 일부 차이를 보일 수 있다는 점을 미리 유념해주시기 바랍니다.


한 가지, 본격적으로 리뷰에 들어가기에 앞서 공지해드릴 내용이 있습니다. 본 리뷰를 진행하면서 필자는 많은 아쉬움이 남았습니다. 국내에 정식으로 입고된 샘플의 갯수가 매우 적었고, 샘플 대여 기간 역시 충분하다고 느끼지 못했기 때문입니다. 필자가 할 수 있는 범주 내에서는 밤낮을 가리지 않고 최대한 테스트를 진행하기는 했으나, 아마 본 리뷰가 모든 부분에서 충분한 만족감을 드릴 수 있을 것이라고는 생각하지 않습니다.

플레이웨어즈는 양질의 리뷰를 보여드리기 위해 최선의 노력을 기울이고 있는 만큼, 부족한 부분에 대해서는 리뷰가 나간 이후라도 추가적인 샘플 대여가 가능한지 확인한 후 테스트를 행해보고 싶다는 것이 필자의 바람입니다.

우여곡절 끝에 테스트를 진행할 수 있었던 스레드리퍼, 인텔 HEDT 라인업을 겨냥해 만든 제품답게 경쟁력 있는 성능을 과연 보여줄 수 있을까요? 그 질문에 대한 답변이 해당 리뷰를 통해서 충분히 전달될 수 있기를 바랍니다.


■ 제품 사양

※ 공식 홈페이지 : https://www.amd.com/ko/products/ryzen-threadripper


- AMD Ryzen™ Threadripper™ 1950X : http://www.amd.com/ko/products/cpu/amd-ryzen-threadripper-1950x


- AMD Ryzen™ Threadripper™ 1920X : http://www.amd.com/ko/products/cpu/amd-ryzen-threadripper-1920x


프로세서 소개: AMD RYZEN THREADRIPPER

■ RYZEN THREADRIPPER : AMD HEDT의 탄생

8코어 16스레드를 지닌 강력한 프로세서, AMD 라이젠 7 프로세서가 출시한 지도 어언 반 년에 가까운 시간이 지났습니다. 인텔이 코어 시리즈를 전면에 내세우면서 일반 사용자용 데스크톱 프로세서부터 조금 더 무거운 용도의 작업을 요구하는 전문가용 HEDT(High-End Desktop) 프로세서까지 광범위한 유저 풀을 채워가는 동안, AMD는 일반 데스크톱 시장의 작은 영역을 차지하는데 만족해야 했습니다. 이러한 유저 풀의 비율은 회사 성장 수준에도 큰 영향을 주었는데, AMD의 경우에는 프로세서 시장에서의 부진이 상당한 악재로 자리잡으면서 높은 적자가 발생함과 동시에 주가도 떨어지는 아픔을 맛보아야 했습니다.

하지만 XBOX One 및 PlayStation 4의 커스텀 세미칩 제공으로 개런티를 받으면서 콘솔계에서는 강하게 자리매김을 했고, 라이젠 프로세서가 출시되기 이전인 2016년에는 x86 SoC 개발을 위해 중국 정부 산하 기관과 손을 잡으면서 자금 상황이 조금씩 나아지기 시작했습니다. 또한, 젠 아키텍쳐 개발의 핵심 아키텍트가 "짐 켈러"라는 소식도 라이젠에 대한 긍정적인 신호탄 역할을 해주었습니다. 결국 시장에 모습을 드러낸 라이젠 7 프로세서는 이전의 클러스터 구조를 사용하던 FX 프로세서와는 전혀 다른 양상의 성능을 보여주면서 성공적인 데뷔를 해내었고, 이후 출시될 라이젠 5/3에 대한 기대감과 함께 서버용 제품군인 EPYC으로 관심을 이어나갔습니다.


사실 일반 시장에서야 AMD의 명맥이 그나마 이어져오기는 했지만, HEDT 시장은 인텔의 독점 시장과도 같았습니다. 불도저 아키텍쳐에 기반한 FX 프로세서를 수 년에 걸쳐 개량한 AMD였지만, HEDT 시장에 출시하기에는 여러 측면에서 역부족이었기 때문입니다. 그나마 서버/워크스테이션용으로 공급되던 옵테론이 가까스로 명맥을 잇고 있기는 했지만, 옵테론 X 베를린을 마지막으로 더 이상 서버 시장에 적극적인 참여를 하지 못했습니다. 물론 그 이면에는 낮은 성능과 줄어든 소켓 수로 인해 지속적으로 점유율이 하락하면서, 서버 시장을 공략하는 데 한계점을 맞이한 탓도 있었을 것입니다.

그런 의미에서 라이젠 시리즈가 가지는 의미는 컸습니다. 2개의 CCX로 구성된 하나의 다이는 작은 규모의 MCM을 연상케 하는 구조인데, 라이젠 시리즈 자체가 최소 4코어 모델을 지니고 있기 때문에 각 CCX 내의 코어 일부가 불량이 나더라도 최소 2개의 코어만 멀쩡하다면 얼마든지 활용이 가능한 구조이기 때문입니다. CCX의 활용율이 좋다는 것은 단순히 생산력이 좋다는 의미로 해석할 수만은 없습니다. 혹자에게는 재정적 상황이나 적은 설비 라인으로 여러 제품을 뽑아내기 위한 AMD의 고민이 고스란히 녹아있다고 해석될 수 있기 때문입니다.


한편, AMD는 4개의 다이를 MCM 형태로 구성하여 최대 32코어 64스레드까지 확장을 고려하고 있었던 만큼 그 중간 라인업에 대해서도 충분히 고려해보았을 것입니다. HEDT 시장은 전통적으로 인텔의 것이라는 생각이 들 정도로 AMD는 일반 데스크톱 시장에 치중하고 있었습니다. FX 시리즈를 생산하던 시절과는 달리, 지금은 젠 아키텍쳐가 적용된 새로운 다이로 더 많은 수의 코어를 내장한 제품을 만들어내는 것이 가능합니다. EPYC 라인업은 서버/워크스테이션을 위한 용도로 사용될 것인 만큼, HEDT 시장을 공략하기 위해서는 새로운 제품이 필요했을 것입니다. 그리하여 등장한 것이 AMD RYZEN THREADRIPPER(이하 스레드리퍼) 라인업입니다.

▲ 새롭게 출시된 스레드리퍼는 Socket TR4 규격으로 제공되는 HEDT(High-End Desktop) 플랫폼입니다.

스레드리퍼는 최대 16개의 코어와 32개의 스레드를 지닌 프로세서입니다. EPYC 프로세서와 동일하게 4094개의 핀 배열을 지닌 것이 특징으로, 거대한 히트 스프레더와 PCB 크기를 유지하기 위해 2개의 더미 다이가 들어가 실제로는 2개의 다이가 동작하는 제품이라고 볼 수 있습니다. PCIe 3.0 24레인을 지원하던 라이젠과는 달리, 스레드리퍼는 PCIe 3.0 64레인을 지원하며, 4개의 DDR4 메모리 채널을 지원하여 라이젠보다 넓은 대역폭을 지니게 되었습니다. 엄밀하게 말하자면 32x2레인과 2x2 메모리 채널이라고 표현할 수 있는데, 이는 스레드리퍼의 구성 자체가 MCM 형태를 취하고 있기 때문입니다.

다만, 기술적으로 보자면 인피니티 패브릭(Infinity Fabric, 이하 IF)으로 묶여 있는 CCX와 마찬가지로 두 개의 다이 역시 IF로 묶여 있기 때문에 온전히 원칩으로 동작시키는 것이 가능해졌습니다. 스레드리퍼는 16코어 32스레드 모델인 1950X와 12코어 24스레드 모델 1920X 모델이 먼저 공개되었고, 1900X도 공개를 기다리고 있습니다. 또한 여러 외신 매체와 벤치마크 툴을 제공하는 일부 사이트에서는 Non X 모델도 출시될 것이라는 정황도 존재하기 때문에 사용자가 요구하는 성능에 따라 다양한 제품이 제공될 것으로 기대해볼 수 있습니다.


한편, 라이젠 프로세서가 지니던 장점을 유지하면서도 더 많은 코어와 PCIe 3.0 레인, 메모리 대역폭까지 다양한 장점을 고루 갖춘 하이엔드 데스크톱 라인업 스레드리퍼이지만, 가격적인 정책은 라이젠과 마찬가지로 경쟁사 대비 저렴한 포지션을 취하고 있습니다. 16코어 32스레드 모델인 1950X가 $999에 위치해 있어 인텔 Core i9-7900X를 겨냥하고 있고, 1920X가 $799에 위치해 가격 면에서는 인텔 i9-7900X와 i7-7820X 사이에 위치할 것으로 예상되며, 스레드리퍼가 상대적으로 더 많은 코어를 지니면서 가격 경쟁력을 충분히 갖추고 시장에 출격한 만큼 인텔의 대응 역시 주목됩니다.

▲ 스레드리퍼는 제플린 다이로 생산되는 다이 중 상위 5% 수율의 다이를 선별하여 제조됩니다.

■ RYZEN THREADRIPPER : MCM? CCX? 원칩인듯, 원칩아닌, 원칩같은?

하드웨어 시장에서 2017년 1분기의 대미를 뜨겁게 장식한 제품은 다름 아닌 "AMD 라이젠"이었다는 것에 대해, 이의를 제기하는 사람은 아마도 거의 없을 것이라 생각합니다. 라이젠 시리즈는 "젠 아키텍쳐"를 기반으로 제조된 프로세서로, 2개의 CCX를 하나의 다이로 묶어 다량의 코어를 지니고 있으면서도 14nm 제조 공정과 함께 고밀도 라이브러리 제조 방식을 적용했다는 특징을 지니고 있었습니다. 특히 많은 사람들이 주목했던 것은 8개의 코어가 탑재된 라이젠 7 모델이었는데, 당시 비교군이었던 인텔 i7-6900K에 비하면 절반 수준의 가격을 지니면서도 거의 동등한 수준의 멀티프로세싱 성능, 안정적인 발열량과 소비전력 등 여러 측면에서 이슈가 되었습니다.


일반 데스크톱용 제품으로 라이젠 시리즈가 급부상하면서, 2017년 하반기에 출시를 예정하고 있던 서버용 제품 "EPYC" 역시 많은 관심이 모아졌습니다. CCX 구조를 채용하고 있는 라이젠의 칩 4개를 묶어 최대 32코어 64스레드의 매니코어를 구현하는 것이 가능하며, 서버 시장의 특성상 2 CPU로 구성할 경우 64코어 128스레드라는 압도적인 숫자를 구성하는 것도 가능해졌기 때문입니다. 또한, AMD 라이젠 제품군의 가격대를 고려해보았을 때 경쟁 제품이 될 인텔 제온 시리즈보다 저렴한 가격으로 구성 가능할 것이라는 일말의 기대도 있었습니다.

그러던 와중에 IT 업계에서는 스레드리퍼에 대한 소문이 떠돌기 시작했습니다. 2개의 다이로 구성된 16코어 32스레드 제품군이 출시한다는 것이었는데, 이를 반증이라도 하듯 다양한 하드웨어 벤치마크 소프트웨어 등지에서 관련 ES 샘플이 노출되었고, 이윽고 AMD는 "라이젠 스레드리퍼(이하 스레드리퍼)"라는 AMD HEDT 라인업을 발표하기에 이르렀습니다.


스레드리퍼는 2개의 다이가 맞물려 동작하는 형식을 취하고 있어 넓은 의미에서는 MCM 형태에 해당합니다. 하지만 젠 아키텍쳐의 구조상 CCX 간의 커뮤니케이션을 담당하는 IF 구조가 서로 다른 다이간에도 적용되어, 스레드리퍼는 마치 하나의 칩으로 구성된 것처럼 동작하는 것이 가능합니다. 인텔이 MCM 제품을 출시했을 때 "네이티브 코어가 아니다"라고 비난하던 AMD였지만, 이번 세대에 와서는 두 회사간의 입장이 서로 뒤바뀐 듯한 인상마저 받고 있습니다.

▲ sTR4 플랫폼과 X370 플랫폼의 비교 도표. USB 2.0 + 3.1 Gen1의 경우 기존 16개에서 20개로, SATA 3는 최대 12개까지 지원 가능하도록 변경되었습니다. 기존 24 레인(PCIe 3.0 20 레인 + PCH-PCIe 2.0 8 레인)이 64 레인(PCIe 3.0 60 레인 + PCH-PCIe 2.0 8 레인)으로 크게 확장되었습니다.
▲ 스레드리퍼 X299 플랫폼의 구조도. 모든 스레드리퍼 프로세서는 DDR4 쿼드 채널와 함께 PCIe 3.0 64레인을 제공합니다. 각각은 PEG(그래픽 카드) 및 각종 확장 카드에 16+16 or 16+16+8+8 레인을 제공해 최대 48 레인, NVMe 장치에 최대 12 레인, PCH용으로 4 레인(PCIe 2.0 x8)이 제공됩니다.

AMD가 이런 제조 방식을 추구한 이면에는 비용이 큰 몫을 차지할 것이라고 추측해볼 수 있습니다. 오랜 시간동안 꾸준히 적자를 기록해온 탓에 R&D 비용을 축소하는 악수까지 둔 AMD의 입장에서는 코어 갯수나 제품 라인업에 따라 여러 프로세서 제조 라인을 활용하는 것에 대한 재정적 압박이 상당했을 텐데, 확장성에 용이한 구성이라면 이러한 문제를 비교적 쉽게 해결할 수 있습니다. AMD 라이젠 시리즈의 핵심은 CCX 구조인데, 여러 외신 매체를 통해서 제플린(Zeppelin) 다이의 80%를 활용하고 있다는 이야기가 먼저 흘러나왔고 이후 98% 수준에 가까운 비율이라는 이야기가 나왔습니다. 이 이야기의 핵심, 제플린 다이 활용의 핵심은 "몇 개의 코어를 온전히 살릴 수 있었는가"입니다.

지극히 당연한 이야기지만, 반도체 제조 과정 중에 일부는 불량이 있을 수 있습니다. 그럼에도 제플린 다이의 활용율이 높은 것은 라이젠 시리즈가 8코어 제품부터 4코어 제품까지 다양하게 포진해있기 때문입니다. 2개의 CCX가 결합되어 하나의 다이를 구성하는 라이젠의 특성상, 각 CCX에 최소 2개의 코어만 살아있으면 4코어 제품으로 온전하게 활용이 가능하다는 것입니다. 즉, 8코어 제품을 베이스로 생산하더라도 일부 코어 불량 제품 역시 고스란히 활용할 수 있는 여지가 있는 셈입니다.

놀랍게도 이 구조의 장점은 스레드리퍼에도 고스란히 적용됩니다. 2개의 다이가 한 세트로 구성된 스레드리퍼는 16코어 32스레드의 1950X와 12코어 24스레드의 1920X, 그리고 차후 공개가 예정되어 있는 8코어 16스레드의 1900X가 존재합니다. 16코어 프로세서의 경우 온전한 8코어 다이 2개로 구성되었다고 한다면 12코어 프로세서는 각 CCX 당 1개의 코어가 죽은 6코어 다이 2개로, 8코어 프로세서는 각 CCX 당 2개의 코어가 죽은 4코어 다이 2개로 구성할 수 있다는 이야기가 됩니다.


앞서 이야기했듯이 AMD는 제조 라인업을 최소화할 필요가 있었을 것입니다. 그러한 이유에서 이번 스레드리퍼의 프로세서 형태와 EPYC 프로세서 형태가 동일한 것 역시 제조 라인업을 최소화하기 위한 일환으로 생각해볼 수 있습니다. 다만 이는 필자의 추측일 뿐, AMD에서 공식적으로 밝힌 입장은 "빈 공간이 히트 스프레더의 열에 의해 휘어지는 현상을 방지하기 위함"입니다.


▲ 스레드리퍼는 게이밍 환경을 구축하기 위한 최고의 성능을 제공한다고 합니다.

이유야 어찌되었든, 스레드리퍼는 2개의 다이로 구성되어 하나의 칩으로 동작하는 프로세서입니다. 이러한 구조를 취해야 하는 이유나 비화와는 상관 없이 원형적으로는 스레드리퍼가 MCM 형태를 표방하고 있는 것은 사실입니다. 두 개의 다이가 IF 구조로 연결되어 있다고는 하나, 각 다이가 별도의 L3 캐시를 내장하고 있고 별도의 메모리 컨트롤러를 가지고 있는 이상 물리적으로 직면하게 되는 문제가 있습니다. 바로 레이턴시 문제입니다.


만약 어떠한 정보(데이터)를 1번 다이에 연결된 메모리에 적재하고 있다고 가정해봅시다. 이 정보에 대해 2번 다이의 코어가 접근해야 한다면, 결국은 1번 다이와 어떠한 형태로든 통신을 해야할 필요가 있습니다. 혹은 1번 다이와 2번 다이 간의 통신을 감안하여 정보를 담아두는 창고 혹은 중재자가 필요한 것은 당연한 이야기입니다. 비단 이러한 문제는 메모리 접근에만 한정되는 것은 아닐 것입니다. 코어간 정보 교환이나 각기 다른 다이 위의 캐시에 액세스하기 위해서도 마찬가지로 다이 간의 통신이 필요합니다. 즉각 처리하지 않고 통신을 거쳐야 한다는 것은 결국 어떤 정보를 주고 받기 위한 레이턴시가 늘어난다는 것을 의미할 것이고, 이는 빠른 정보 교환을 필요로 하는 캐시/메모리 레벨에서 더욱 크게 작용할 수밖에 없습니다. 1950X와 1920X 모델은 총 32MB의 L3 캐시를 지니고 있습니다. 이는 2개의 다이로 구성된 스레드리퍼의 구조로 보자면 16MB+16MB로 구성되어 있다는 의미입니다. 결론적으로 특정 메모리나 캐시에 접근하기 위해서는 MCM 구조 특유의 문제인 "최선"과 "최악"의 경우가 발생할 수밖에 없고, 이는 고스란히 높은 레이턴시로 반영될 가능성이 있습니다.

▲ 가까운 메모리와 멀리 있는 메모리에 접근하기 위한 레이턴시 차는 성능으로 반영될 수밖에 없습니다. 다행히 AMD는 상황에 따라 이를 조절할 수 있도록 라이젠 마스터에 메모리 액세스 모드를 추가했습니다.

한 가지 다행인 것은, AMD가 이러한 부분을 충분히 염두에 두고 있었다는 점입니다. 두 개의 다이 혹은 네 개의 다이(EPYC)를 연결하는 MCM 형태의 제조 방식을 생각했다면, 당연히 AMD는 메모리 액세스가 전체 시스템 성능에 어떠한 영향을 미치는지에 대해서도 꾸준히 연구했을 것입니다. 멀리볼 것도 없이, 라이젠 또한 넓은 의미에서 보자면 2개의 CCX가 결합되어 있는 형태입니다. 즉, IF를 통한 통신과 더불어 메모리 접근에 대한 부분 역시 충분히 연구했을텐데, 이는 스레드리퍼가 제공하는 메모리 액세스 모드를 보아도 알 수 있습니다.


스레드리퍼 출시와 더불어 공개되는 새로운 라이젠 마스터에는 메모리 액세스 모드를 설정할 수 있는데, 바로 "Local 모드"와 "Distributed 모드"가 그 주인공입니다.

▲ 스레드리퍼 발표와 함께 제공되는 새로운 라이젠 마스터. 메모리 액세스 모드와 더불어 우측의 "Legacy Compatibility Mode"도 눈여겨 보시기 바랍니다.

먼저, Local 모드는 표현 그대로 각 다이에 연결된 메모리에만 접근하도록 제한을 두는 모드입니다. 매니코어로 구성된 인텔 제온 E5/E7 프로세서에 들어가는 Cluster on Die(COD) 모드와 비슷한 개념으로, NUMA(Non-Uniform Memory Access) 형태로 시스템을 동작하게끔 하여 각 다이에 연결된 메모리에 제한적인 접근을 하도록 설정하는 것이 특징입니다. Local 모드는 제한적인 접근으로 인해 전체 메모리 대역폭이 떨어진다는 단점이 존재하기는 하지만, 다이에 연결된 메모리에 곧장 접근하는 액세스 모드인 만큼 레이턴시 문제를 상당히 개선할 수 있다는 장점을 내포하고 있습니다. 이쯤되면 Distributed 모드에 대해서도 이해할 수 있을 것입니다. Distributed 모드는 Local 모드와 반대되는 모드로, UMA(Uniform Memory Access) 형태로 시스템을 동작하게끔 하는 모드입니다. 대다수의 경우에는 메모리 채널을 최대한 활용하여 전송 속도를 높이는 것이 성능 향상에 도움을 줍니다. 특히나 메모리 전송 속도(혹은 대역폭)에 영향을 많이 받는 프로그램일수록 성능에 미치는 영향 역시 클 수밖에 없습니다. 이러한 이유 때문인지 바이오스나 라이젠 마스터를 통해 별도로 설정을 가하지 않은 경우, 스레드리퍼는 기본적으로 "Distributed 모드"로 동작합니다. 애초에 HEDT 라인업의 가장 큰 목적인 생산성 측면을 고려한다면 이렇게 별도의 액세스 모드를 설정할 수 있게 선택권을 주는 것이 가장 최적의 솔루션이라고 판단됩니다.

▲ 넓은 DRAM 액세스를 요구하거나 대역폭을 요구하는 일반적인 상황에 적합한 UMA(좌)와 다이에 연결된 지역 메모리에 빠르게 연결하기 위한 낮은 레이턴시를 요구하는 상황에 적합한 NUMA(우)
▲ AMD에서 제공하는 Distributed(UMA) 모드와 Local(NUMA) 모드의 차이점을 알 수 있는 그래프. 대역폭과 레이턴시에서 각 모드의 장점이 발휘됩니다.

Local 모드와 Distributed 모드가 각각 장단점을 지니고 있다는 부분은 충분히 설명이 되었을텐데, 그렇다면 이 모드는 각각 어떠한 용도로 활용하면 좋을까요?

Distributed 모드가 일반적인 환경에서 최적의 성능을 제공해준다고 한다면, Local 모드는 게임에서 가장 빛을 발하는 모드라고 할 수 있습니다. 게임은 장르나 특성에 따라 요구하는 성능도 다양합니다. 많은 코어를 요구하거나 클럭 속도에 의존하는 게임도 있으며, 낮은 메모리 레이턴시나 코어간 레이턴시의 영향력이 큰 게임도 존재합니다. Local(NUMA) 모드는 단순히 생각했을 때 메모리 레이턴시를 줄여주는 효과가 돋보이지만, 궁극적으로는 L3 캐시에 대한 레이턴시 역시 향상되는 효과를 지니고 있습니다. 이는 어떤 의미에서 코어간 레이턴시를 줄여주는 효과로 이어질 수 있으며, 결국 낮은 메모리 레이턴시나 코어간 레이턴시를 요구하는 게임에서의 성능 향상으로 이어질 수 있습니다.

▲ Distributed 모드로 동작하는 일반/크리에이터 모드(좌)와 Local 모드 및 Legacy Compatibility 모드가 활성화되는 게임 모드(우)의 비교. 게임 모드로 동작 시 라이젠 7보다 빠른 레이턴시를 보이는 점이 인상적입니다.
▲ AMD에서 제공하는 게임별 우선 요구 성능 예제표. 다만, 각 항목만이 게임 성능에 절대적인 영향을 주는 것은 아닙니다.

AMD에 따르면, 75개의 게임에서 테스트를 진행한 결과 Local 모드로 게임을 플레이할 경우 평균적으로 약 5% 가량 성능 향상이 나타났으며, Hitman: Absolution과 같은 일부 게임에서는 10%에 가까운 성능차가 발생했다고 합니다. 모든 상황에서 절대적인 성능 향상으로 이어진다고 할 수는 없지만, 태생적 구조에 대해 최적의 솔루션을 제공하고자 하는 노력에 대해서는 긍정적인 시선으로 바라볼 수 있는 대목입니다.

▲ 게임 모드를 활성화할 경우 평균적으로 5% 가량의 성능이 향상되지만, 모든 게임이 향상되는 것은 아닙니다.

라이젠 마스터를 통해서 게임 모드나 크리에이터 모드, 그 밖에 사용자가 설정 가능한 Profile 모드를 제공하여 쉽고 빠르게 모드 전환을 할 수 있다는 것은 큰 장점으로 다가옵니다. 물론 별도의 설정 없이 모든 상황에서 최적의 성능을 발휘한다면 최선이겠지만, 2개의 칩을 연결하는 스레드리퍼의 구조상 물리적인 한계를 극복하기에는 어려움이 따를 것입니다. 그렇기 때문에 차선책으로 게임 모드와 같은 기능을 제공하는 것이라고 예측해볼 수 있습니다.


해당 플랫폼을 이용해 게임을 즐기려는 유저에게는 NUMA 시스템 환경을 구성하여 게임 성능을 최대한 끌어올리는 선택지를 제공하는 기술의 일환이기는 하지만, 사용자가 사용하는 소프트웨어의 종류에 따라서는 게임이 아니더라도 NUMA 설정으로 성능의 이득을 취할 수 있을지 모릅니다. 어떤 게임이나 소프트웨어에서의 설정이 최적값을 얻을 수 있을지에 대한 부분은 많은 커뮤니티와 포럼을 통해 자료가 공유될 수 있지 않을까 생각되며, AMD에서도 끊임 없는 기술 지원을 통해서 상황에 맞는 최적의 성능을 유지할 수 있기를 기대해봅니다.

▲ 게임 모드로 설정하면 Legacy Compatibility 모드도 활성화되는데, 이는 많은 숫자의 스레드 카운트를 정상적으로 인식하지 못하는 일부 게임이 정상적으로 동작하도록 설정하는 모드입니다(대표적으로 DiRT RALLY는 20 스레드 이상의 시스템에서 실행 시 크래시가 발생합니다). Legacy Compatibility 모드는 스레드 카운트를 반으로 줄여서 문제점을 해결하는데, 이 때 논리 코어 대신 물리 코어를 우선적으로 배치하여 게임의 성능이 떨어지는 것을 방지합니다. 이러한 코어 배정 부분은 윈도우 스케쥴러 개념에서 착안하여 개발되었다고 합니다.
▲ 라이젠 마스터에 포함된 "게임 모드"와 "크리에이터 모드"를 선택 시 메모리 액세스 모드와 Legacy Compatibility 모드가 각각 변경됩니다.

제품 사진

자세한 사진은 이미 앞서 리뷰어 패키지 언박싱에서 보여드린 바가 있으며, 많은 사진을 확인하고자 할 경우 아래의 링크로 접속하시기 바랍니다.

 ※ AMD RYZEN THREADRIPPER 1950X/1920X : 리뷰어 패키지 언박싱

- http://playwares.com/pcreview/54741579


테스트 구성
▲ 모든 시스템에는 Thermaltake Floe Riing 360 TT Premium Edition을 장착하여, 높은 CPU 온도에 인해 발생할 쓰로틀링을 최소화했습니다.
▲ 메모리와 파워 서플라이는 리뷰어 샘플에 동봉되었던 G.SKILL TRIDENT Z RGB F4-3200C14D-16GTZR 및 Thermaltake TOUGHPOWER iRGBPLUS 1250W를 사용했습니다.

각 시스템은 모두 기본 상태로 설정했으며, 시스템 구성의 변화를 최소화해야 하는 만큼 나머지 구성품은 모두 동일하게 설정하여 테스트를 진행했습니다.

오버클럭 환경의 경우 1.3V 수준에서도 안정적인 동작이 가능하기는 하나, 1.3V 내외에서는 간헐적인 22배수 고정 버그가 발생하여 0.0125V를 추가로 인가했습니다.

성능 측정 시 테스트룸의 실내 온도는 에어컨을 이용하여 24±1℃ 수준을 꾸준히 유지했으며, 해당 테스트에 사용된 시스템 구성은 아래와 같습니다.


성능 테스트: 소프트웨어 소개

다양한 상황에 대한 CPU 성능을 측정하기 위해 다각적 측면에서의 테스트를 진행했습니다.

테스트는 CPU를 비롯한 종합적인 시스템 성능을 측정할 수 있는 "종합 벤치마크 툴"과 CPU 단일 성능만을 측정하는 "단일 벤치마크 툴", CPU의 영향을 크게 받는 "렌더링 / 인코딩 / 컴파일", 그리고 "게임 테스트"까지 크게 4가지 종류로 나누었습니다.


시스템 및 CPU의 성능을 측정하는 테스트와는 달리, 시스템의 외적인 부분에서 영향을 주는 "코어 온도"와 "소비전력" 또한 별도로 측정을 진행했습니다. 해당 테스트는 각 항목 별로 하나의 툴 혹은 소프트웨어를 선정했으며, 종합적인 시스템 부하 테스트를 위해서 "AIDA64 안정성 검사"와 "Prime95" 테스트를 진행했습니다.


세부적인 테스트 내용은 아래 링크를 참고해 주시기 바랍니다.

http://playwares.com/pcreview/54805192?no=5

■ 종합 벤치마크 툴


- AIDA64 Engineer 5.92.4329

- SiSofttware Sandra 2017



■ 단일 벤치마크 툴


- CINEBENCH R15 64bit

- MaxxMEM2 Preview Multi

- UCBench2011

- 7-Zip 16.04 Benchmark

- 3DMark Fire Strike Normal / Ultra

- 3DMark Time Spy (DX12)



■ 렌더링 / 인코딩 / 컴파일


- POV-Ray 3.7.0 Benchmark

- Blender 2.78c 64bit

- HandBrake 1.0.7 64bit: 4K-to-4K

- MAGIX Vegas Pro 14

- x265 HD Benchmark 0.1.4



■ 게임 테스트


- Rise of the Tomb Raider (DX12)

- DiRT 4

- Assassin's Creed: Syndicate

- The Division (DX12)

- Rainbow Six: SEIGE

- Metro 2033: Redux



■ 코어 온도 및 소비전력


- 단일 벤치마크 툴: CINEBENCH R15 64bit

- 렌더링 / 인코딩 / 컴파일: x265 HD Benchmark 0.1.4

- 게임 테스트: Rise of the Tomb Raider (DX12) 1080p

- AIDA64 Engineer 5.92.4329 안정성 검사 : 10분간 테스트

- Prime95 v29.2 64bit : 10분간 테스트


성능 테스트: 종합 벤치마크 툴 결과

■ 종합 벤치마크 툴: 테스트 결과 요약

많은 코어를 지니고 있는 프로세서는 강력한 성능을 발휘하기 마련입니다. MCM에 가까운 형태로 제작되었지만 인피니티 패브릭(Infinity Fabric, 이하 IF)으로 엮여 하나의 거대한 코어처럼 동작하는 구조를 지닌 스레드리퍼는 멀티코어를 온전하게 사용하는 프로그램일수록 그 진가를 확실하게 발휘했습니다.

라이젠 스레드리퍼 1950X의 경우에는 16코어 32스레드를 앞세워 압도적인 힘을, 1920X의 경우 12코어 24스레드를 지녀 전반적으로 i9-7900X와 경쟁하는 듯한 강력한 모습을 보여주었습니다. 특히 1920X의 경우, 태생적으로 인텔에 밀릴 수밖에 없는 일부 프로그램을 제외하더라도 몇몇 성능 테스트에서 i9-7900X보다 조금 떨어지는 모습을 보여주기도 했는데, 오히려 가격적인 차이를 고려해본다면 오히려 그 차이는 작게 느껴질 수도 있겠습니다.


스레드리퍼는 라이젠과 동일하게 젠 아키텍쳐가 적용된 프로세서이자 2개의 다이가 IF로 묶여 있는 구조이기 때문에 싱글 코어의 절대적인 성능은 동일하다고 봐도 무방합니다. 메모리 측면에서는 라이젠보다 소폭 높아진 레이턴시를 지니는데, 덩치가 더욱 커졌으면서 근본적인 구조가 MCM의 형태를 취하는 만큼 메모리에 접근하기 위해서는 이상적인 속도(최소값)와 최악의 속도(최대값)가 공존할 수밖에 없습니다. 다행히도 일반적인 소프트웨어는 대역폭의 영향을 크게 받는 경우가 더 많기 때문에 코어 숫자가 많은 스레드리퍼의 성능은 라이젠을 큰 폭으로 따돌렸습니다. 이러한 결과를 도출해낼 수 있는 원인은 Local 모드의 성능에 있습니다. 레이턴시의 영향력을 더 중요시하는 일부 테스트에서는 Local 모드가 Distributed 모드보다 성능이 높게 나타나기는 했지만, 대다수의 경우에서는 동등하거나 조금 떨어지는 성능을 보이기도 했습니다.


■ AIDA64 Engineer 5.92.4329


■ SiSoftware Sandra 2017


성능 테스트: 단일 벤치마크 툴 결과

■ 단일 벤치마크 툴: 테스트 결과 요약

앞서 진행했던 종합 벤치마크 툴 테스트와 마찬가지로, 여러 소프트웨어에서는 코어 수가 많은 스레드리퍼 1950X가 높은 성능을 보여주었습니다. 앞서 테스트했던 것과 마찬가지로 스레드리퍼에 포함된 Local 모드는 테스트 프로그램의 특성에 따라 일반(Distributed) 모드와 비등하거나 조금 떨어지는 성능으로 나타났습니다.

여러 벤치마크 결과 중에서도 CINEBENCH R15의 경우 1920X가 1950X보다 싱글코어 점수가 높게 나오는 것을 확인할 수 있는데, 이는 1950X와 1920X 프로세서가 동일한 범주의 부스트 클럭 및 XFR 클럭을 가지고 있음에도 실제 테스트에서는 1950X가 발휘할 수 있는 부스트 클럭이 4.1GHz 이하로 제한되기 때문입니다. 1920X의 경우에는 4.2GHz 수준까지 온전히 XFR 기능이 동작하는 반면, 1950X의 경우 코어 사용율이 높은 일부 프로그램에서는 올코어 클럭도 3.6GHz 수준에 머무르는 등 약간의 성능 제약이 걸리는 듯한 모습을 확인할 수 있었습니다.


단, 해당 테스트가 진행된 이후에도 메인보드 바이오스 업데이트가 지속적으로 진행되고 있으며, 본 리뷰에서 진행한 바이오스의 경우 상당히 초기에 제공된 바이오스임을 감안하면 이후 바이오스 업데이트를 통해 1950X 역시 정상적으로 4.2GHz 수준의 부스트 클럭이 나타날 가능성은 있습니다.


■ CINEBENCH R15 64bit


■ MaxxMEM2 Preview Multi


■ UnRAR Crack Bench 2011


■ 7-Zip Benchmark (Dictionary 32MB)


■ FutureMark 3DMark : Fire Strike Normal / Ultra


■ FutureMark 3DMark : Time Spy DX12


성능 테스트: 렌더링 / 인코딩 결과

■ 렌더링/인코딩: 테스트 결과 요약

렌더링과 인코딩 영역은 코어 수가 빛을 발하는 분야입니다. 물론 소프트웨어가 4코어 이상의 프로세서에 대해서 시스템 자원을 십분 활용할 때 성립하는 이야기입니다. 테스트에 사용된 대다수의 소프트웨어가 매니코어에 대한 부분도 정상적으로 지원했는데, Vegas Pro 14의 경우에는 매니코어를 정상적으로 활용은 하지만 FX 등의 특수 효과를 많이 활용하지 않을 경우에는 작업 분배량을 나누는 수준으로 코어를 활용하기 때문에 생각만큼 큰 차이가 발생하지는 않았습니다.


다만, 이를 제외한 대다수의 소프트웨어에서는 16코어 32스레드 및 12코어 24스레드를 지니고 있는 1950X / 1920X가 큰 힘을 발휘했습니다.


■ POV-Ray 3.7.0


■ Blender 2.78c 64bit


■ Handbrake 1.0.7 64bit


■ MAGIX Vegas Pro 14


■ x265 HD Benchmark 0.1.4


성능 테스트: 게임 테스트 결과

■ 게임: 테스트 결과 요약

절대적인 게이밍 성능 분야에서 클럭 수치는 매우 중요한 항목입니다. 게임은 IPC의 영향도 받고 코어 수의 영향도 받지만, 다양한 장치에서의 입출력을 비롯해 프로그램 구조 상으로도 많은 변수를 지니고 있는 만큼 궁극적으로는 클럭의 영향을 크게 받을 수밖에 없기 때문입니다.

(물론 펜티엄D-스미스필드 라인업에서 콘로로 넘어갈 때와 같이 극단적인 IPC 향상이 이루어지는 경우에는 이야기가 조금 달라질 수도 있습니다.)


앞서 테스트를 진행했던 벤치마크 툴 대다수는, 온전하지는 않더라도 멀티코어 환경을 비교적 잘 지원하는 케이스들입니다. 여기서의 멀티코어라 함은 특정 숫자, 이를테면 4코어나 8코어처럼 정해진 갯수만을 지칭하는 것이 아니라 8코어 이상의 매니코어에 대해서도 충분히 잘 지원한다는 의미입니다.

그렇다면 게임은 어떨까요? 단순 연산으로 분산작업에 제격인 인코딩, 워크스테이션을 염두에 둘 수 밖에 없을 정도로 높은 컴퓨팅 파워를 요구하는 렌더링 작업 등과는 달리, 게임은 일반 소비자를 대상으로 제작되는 경우가 9할 이상일 것입니다. 그렇기 때문에 DX12가 적용된 게임이 출시되는 현시점에서도 4코어의 영향력은 강력할 수밖에 없습니다. 유비소프트 게임들은 비교적 멀티코어 지원을 원만하게 하는 편이지만 이 역시 DX11 이후의 이야기일 뿐, 결국 기존에 출시된 유플레이 게임을 비롯해 출시한 지 상당한 시간이 흐른 게임들은 여전히 4코어에 초점이 맞추어져 있습니다. 라이젠과 스레드리퍼 간의 무의미에 가까운 프레임레이트 차가 발생하는 원인도 여기에 있습니다. 실제로 벤치마크 툴 테스트와 같이 모든 게임이 멀티코어를 온전히 지원한다면 스레드리퍼가 뚜렷하게 앞서는 양상이 나타나야 할테지만, 현실은 높은 클럭과 최신 아키텍쳐가 적용된 i7-7700K의 승리라고 볼 수있습니다. 이와 비슷한 시각에서 보자면 인텔 i9-7900X 역시 상대적으로 i7-7700K보다 밀리는 양상을 보여줍니다.


물론 스레드리퍼를 오롯이 게임을 하기 위한 용도로 구매하는 사용자는 적을 것입니다. 다행인 것은, MCM 형태에 가까운 스레드리퍼에 활용된 칩은 상위 5% 수율로 제한을 시켰기 때문에 동일 스테핑으로 제조된 제품임에도 수율이 우수하다는 점입니다. 기본 상태에서 라이젠 7 1800X와 비교했을 때 미약하게나마 긍정적인 성능을 보여주는 이유는 이러한 특성으로부터 유추해볼 수 있을 것입니다.


성능 측정을 하면서 한 가지 아쉬웠던 점은 온전한 테스트를 진행하지 못했다는 부분입니다. 시간 관계상 다양한 경우의 수를 테스트해보지 못하기는 했지만, UMA 모드와 NUMA 모드를 각기 적용할 경우 게임에 따라 유의미한 성능 차이가 발생했기 때문입니다. 특히 Rise of the Tomb Raider나 Assassin's Creed: Syndicate의 1080P 해상도에서는 기본 모드라고 할 수 있는 Distributed 모드와 비교했을 때 상당한 수준의 성능 향상을 보였던 만큼, 해당 기능을 십분 활용할 수 있는 게임에서 더 나은 프레임레이트를 확보하는 것이 가능하리라 생각됩니다.

또한, Lagacy Compatibility 모드를 활성화하면 스레드 배정 문제를 변경하기 때문에 출시한 지 상당한 시간이 지난 일부 게임에서 프레임레이트 향상이 나타나거나 매니코어로 인한 실행 오류를 해결할 수 있다는 AMD의 보고가 있었습니다. 그렇기 때문에 더더욱 시간에 쫓겨 테스트를 완벽하게 마무리하지 못했다는 일말의 아쉬움이 남습니다.

기회가 닿는다면 해당 파트는 별도로 테스트를 진행해볼 예정입니다.


■ RISE OF THE TOMB RAIDER (DX12)


■ DiRT 4


■ ASSASSIN'S CREED: SYNDICATE


■ TOM CLANCY'S THE DIVISION (DX12)


■ TOM CLANCY'S RAINBOW SIX: SIEGE


■ METRO 2033 REDUX


성능 테스트: 코어 온도 측정 결과

■ 코어 온도 측정: 테스트 결과 요약

AMD의 공식 발표에 의하면, 라이젠 스레드리퍼 프로세서는 더 나은 온도를 유지하기 위한 목적으로 팬 속도을 개선시키기 위해 Tctl 센서 상의 온도를 27℃ 높게 표기하도록 설정했다고 합니다. 이는 라이젠 프로세서에도 동일하게 적용되던 내용으로, 라이젠 프로세서의 경우 20℃ 가량 Tctl이 높게 적용되어 초창기 많은 유저들에게 혼란을 주기도 했습니다. 스레드리퍼의 경우에는 다이가 크고 코어수가 더 많기 때문인지 약간의 여유 폭을 더 주었다는 느낌인데, 라이젠 프로세서처럼 Tctl 온도로 인한 스로틀링이나 강제 셧다운 증상이 없을지에 대해서는 추가적인 확인이 필요합니다.

실제로 플레이웨어즈에서는 스레드리퍼 오버클럭 테스트에 많은 시간을 할애할 수는 없었지만, AVX2 테스트를 포함한 대다수의 테스트가 온전하게 동작했음에도 불구하고 장기간 코어를 사용하는 테스트에서 온도가 Tctl 기준 98~102℃ 사이 수준에 머무를 경우 간헐적으로 PC가 멈추는 증상이 나타났습니다. 오버클럭 실패의 요인도 있을 수 있으나 앞서 설명드린대로 모든 테스트는 안정적이면서 정상적으로 완료할 수 있었기 때문에, 개인적으로는 Tctl 온도로 인한 프리징 문제로 추측하고 있습니다.


해당 파트의 경우, 별도로 시간을 할애하여 테스트하는 것이 가능하다면 다시금 업데이트하도록 하겠습니다.



한편, 27℃ 오프셋 온도를 제외하고 보면 스레드리퍼의 온도는 상당히 양호한 수준을 유지하고 있습니다. 물론 이번 테스트는 모든 시스템에 3열 AIO 수냉 쿨러를 활용하기는 했으나, sTR4 규격의 거대한 히트 스프레더를 완전히 가리지 못한다는 점을 감안할 필요가 있습니다. 특히, 수냉 쿨러에서 핵심적인 부분이라고 할 수 있는 마이크로 핀이 스레드리퍼의 히트 스프레더 코어 부를 전부 덮지 못한다는 사실을 고려한다면, 온도 부분에 있어서는 2개의 더미 다이를 넣어서까지 커다란 히트 스프레더 솔더링 처리한 만큼 두 개의 다이를 지닌 제품임에도 상당히 안정적이라는 인상을 줍니다.


■ 코어 온도 : CINEBENCH R15 64bit


■ 코어 온도 : x265 HD Benchmark 0.1.4


■ 코어 온도 : Rise of the Tomb Raider(DX12)


■ 코어 온도 전원부 외부 온도 : AIDA64 Stress Test


■ 코어 온도 전원부 외부 온도 : Prime95 v29.2 Stress Test


성능 테스트: 소비전력 측정 결과

■ 소비전력 측정: 테스트 결과 요약

테스트에 들어가기 앞서, 필자는 '동일한 180W의 TDP를 지니면서도 어떻게 똑같은 All-Core Boost Clock을 지니는가'하는 부분에 대해 궁금증이 일었습니다. TDP는 해당 제품의 발열량을 알 수 있는 척도 중 하나로, 스레드리퍼의 경우 1950X와 1920X가 동일한 수준의 TDP를 갖추기 위해서는 1950X의 클럭이 낮게 들어가야할 것이라고 예상했습니다.두 프로세서의 All-Core Boost Clock이 3.7GHz, 4Core Boost Clock은 4.0GHz, XFR로 인한 추가 부스트 클럭은 최대 4.2GHz 수준이라는 점은 이미 공지가 되어 있었지만, 실제 테스트를 진행하면서 확인한 것은 1950X가 1920X보다 전반적으로 낮은 클럭이 적용된다는 점이었습니다.


이를테면, All-Core Boost Clock의 경우 1950X는 일부 테스트에서 3.45~3.5GHz 사이의 클럭을 유지했고, XFR을 포함한 부스트 클럭은 4.025~4.75GHz 수준에 머물렀습니다. XFR이 코어 온도에 따라 적용된다는 것을 감안해야겠지만 1920X 역시 Tctl 온도가 높게 적용되기는 마찬가지이며, 1920X는 XFR을 포함한 부스트 클럭이 4.125~4.2GHz 수준을 유지한다는 것을 감안해보아야 합니다. 물론 앞서 이야기한 내용처럼 테스트에 활용된 바이오스는 초기 버전이며, 샘플 대여가 끝난 이후에도 바이오스 업데이트 내용을 전달받았던 바 해당 내용은 충분히 수정될 여지가 있음을 참고해주시기 바랍니다.


TDP는 제품의 대략적인 발열을 가늠하는 척도로 활용되기도 하지만, 어느 정도의 소비전력을 지니는지에 대한 척도로도 활용이 됩니다. 반도체의 특성상 결국 발열량 자체가 소비전력으로 귀결되는 경우가 많기 때문일 것입니다. 소비전력 결과를 본다면 1950X가 1920X보다 오히려 평균값이 낮은 경우도 있는데, 앞서 소개한 내용처럼 부하량에 따라서 1950X의 All-Core Boost Clock이 낮게 잡히는 경우가 있었기 때문입니다. 일반적으로 3.45~3.5GHz 영역에 머무르기 때문에 모든 코어가 3.7GHz로 동작하는 1920X와 비슷하거나 소폭 낮게 측정되는 경우가 있었습니다.


반면, 1950X가 정상적으로 All-Core Boost Clock이 걸리는 Rise of the Tomb Raider에서는 1920X에 비해 소폭 높은 평균값을 보이기도 했습니다.

지속적으로 언급하는 부분이지만, 샘플 테스트를 진행하는 동안의 바이오스는 상당히 초기 버전임을 감안해야 하며, 이후에도 바이오스가 지속적으로 업데이트되는 것을 확인했기 때문에 All-Core Boost Clock이 정상적으로 동작한다면 1920X보다 조금 더 높은 소비전력 수치를 보일 것으로 예상됩니다.


AIDA64와 Prime95의 경우 1950X를 오버클럭한 상태로 테스트를 완벽하게 완수하지는 못했지만, 기록된 소비전력 패턴이 일정하게 기록되었기 때문에 추산치로 함께 표기되었음을 참고해주시기 바랍니다.


■ 소비전력 : CINEBENCH R15 64bit


■ 소비전력 : x265 HD Benchmark 0.1.4


■ 소비전력 : Rise of the Tomb Raider(DX12)


■ 소비전력 : AIDA64 Stress Test


■ 소비전력 : Prime95 v29.2 Stress Test


결론

HEDT, 하이엔드 데스크톱을 줄여서 부르는 이 단어를 들었을 때 흔히 가장 먼저 떠오르는 것은 "인텔"일 것입니다. 그 동안 AMD가 쉽사리 도전하기 어려웠던 고성능 컴퓨팅 분야였기 때문입니다. 1세대 코어 시리즈 이후 AMD는 극적인 역전을 위해 클러스터 방식의 프로세서를 생산했으나, 이는 고스란히 역풍으로 불어닥치는 결과를 초래했습니다. 일반 데스크톱 시장에서의 경쟁력도 휘청거리는 시기였기 때문에 HEDT 시장에서 경쟁할 만한 제품을 만들기도 어려웠고, 설상가상으로 상당한 파이를 차지하고 있던 서버 시장에서도 인텔에게 밀리는 모습을 보여 재정적인 위기가 찾아오기도 했습니다.


다행히 XBOX One과 PlayStation 4와 같은 차세대 콘솔기기가 세미 커스텀 칩의 공급처로 AMD를 찾았고, 중국 정부 산하 기관과의 협력을 통해 재정적 위기를 한꺼풀 벗어던지면서 AMD도 조금은 숨통이 트였을 것입니다. 또한, AMD는 상당한 규모 축소를 감행한 R&D 비용 중에서도 대다수를 라이젠 프로세서에 투자하면서 도박에 가까운 시도를 했는데, 다행히 이 시도는 2017년 3분기로 접어들면서 AMD의 전세계 CPU 시장 점유율을 31% 수준까지 끌어올리게 도와주었습니다.

젠 아키텍쳐로 구성된 라이젠 프로세서가 성공적인 런칭을 해내면서, 이후 출시할 서버/워크스테이션용 프로세서 "에픽(EPYC)" 역시 큰 주목을 받았습니다. 그러던 와중에 외신 매체들을 통해서 일반 데스크톱 프로세서와 서버용 프로세서 사이의 새로운 라인업이 나올 것이라는 루머와 정황이 나돌았는데, 이를 증명이라도 하듯 AMD는 새로운 HEDT 라인업인 "RYZEN THREADRIPPER(이하 스레드리퍼)"의 존재를 공식으로 발표했습니다.



그간 AMD에서 출시한 프로세서는 일반 데스크톱 프로세서와 서버/워크스테이션 서버에 한정되어 왔기 때문에, 새롭게 공개된 HEDT 라인업 프로세서는 여러모로 시사하는 바가 많습니다. 다양한 시사점 중에서도 핵심은 기술적으로 상당한 격차가 벌어져있다고 평가받던 인텔과 AMD의 시간을 상당한 수준까지 좁혔다는 것, 그리고 x86 시장의 전반적인 곳에 프로세서를 공급하면서 AMD가 여전히 건재하다는 어필을 충분히 했다는 것입니다. 일반 데스크톱 제품군에서 8코어 제품을 출시하면서, 넓은 범주에서는 HEDT 라인업까지도 공격하는 듯한 모양새를 보였으나, 인텔 역시 차세대 HEDT 라인업 출시를 알렸기에 AMD로써는 충분히 대응을 할 필요가 있다고 생각한 것 같습니다. 그리하여 최대 16코어 32스레드의 강력한 컴퓨팅 파워를 갖춘 스레드리퍼가 세상에 모습을 드러냈습니다.

스레드리퍼는 쉽게 말해보자면 2개의 라이젠 칩이 결합된 형태의 MCM 프로세서입니다. 2개의 CCX로 구성된 제플린 다이 2개를 4094개의 핀이 박힌 PCB 위에 올리면서 많은 코어 숫자를 지니게 되었고, 여기에 기존 라이젠보다 확장된 PCIe 3.0 64레인을 갖추면서 메모리 채널 역시 기존 듀얼 채널에서 쿼드 채널로 늘어나 총 8개의 메모리를 장착하는 것이 가능해졌습니다.


특히 주목해야 하는 부분은 PCIe 3.0 레인 수인데, PEG(PCI-Express 방식 그래픽 카드) 등을 장착할 수 있는 PCI-Express 슬롯에 최대 48레인이 할당되면서 SLI/CrossFireX를 원활하게 구성하는 것이 가능해졌고, NVMe 방식의 저장 장치를 최대 3개까지 지원하여 풍족한 확장성을 보입니다. USB 2.0 + 3.0 Gen1의 최대 지원 수와 SATA 3 지원 수 역시 늘어났습니다. HEDT 라인업에 걸맞게 확장성은 충분히 늘었다고 느껴지는 대목인데, 이렇듯 확장성을 늘릴 수 있었던 것은 하나의 칩에 두 개의 다이가 장착되었기 때문입니다.

두 개의 다이가 들어있음에도 스레드리퍼는 EPYC과 동일한 4094핀 LGA 규격을 지니고 있는데, 히트 스프레더가 거대하기 때문에 두 개만 장착시킬 경우 열로 인해 빈 공간의 히트 스프레더가 휠 염려가 있어, 공간을 채우기 위한 목적으로 두 개의 더미 다이를 장착했다고 합니다. 예전 데네브 시절처럼 코어 부활을 꿈꾸신 분이 있었다면, 아마 불량 코어나 정상 작동이 되지 않는 코어 다이가 탑재되었을 확률이 높으므로 큰 기대는 접으시는 것이 좋을 것 같습니다.

앞서 소개했듯이, 이번 테스트는 필자 개인적으로도 만족스러운 편은 아니었습니다. 테스트 기간이 짧았던 탓도 있었지만, 아무래도 샘플 제공 시기가 상당히 일렀기 때문에 리뷰어에게 제공되는 베타 버전의 라이젠 마스터조차 없는 상태로 테스트를 진행해야 했습니다. 여기에 현재 일부 라이젠용 메인보드에서 발생하는 배수 고정 버그가 종종 발생하기도 했는데, 샘플을 반납한 이후에도 바이오스가 꾸준히 업데이트되었기 때문에 이 문제와 관련한 부분은 수정되었을 가능성이 높습니다.

또 한 가지는 1950X의 클럭입니다. 코어 온도 측정 결과와 소비전력 측정 결과 부문에서 충분히 설명을 드렸던 바와 같이, 스레드리퍼 1950X의 공식적인 XFR 기준 부스트 클럭은 4.2GHz입니다. 하지만 실제 테스트 시에는 4.025~4.075GHz 사이의 부스트 클럭이 일반적이었고, All-Core Boost Clock 또한 강한 부하가 걸리는 작업에서 일부 클럭이 3.45 ~ 3.5GHz 수준에 머물러 최대치의 성능을 발휘했다고 보기는 어렵습니다. 온도 문제와 연관지을 수도 있겠지만, 비슷한 조건(Tctl 기준 IDLE 55~60℃)에서의 1920X는 대다수의 경우에서 4.2GHz에 달하는 XFR 부스트 클럭과 3.7GHz의 All-Core Boost Clock을 정상적으로 유지했기 때문에 약간의 차이가 발생했습니다.


재밌는 점은, 이러한 부분들을 모두 고려하더라도 스레드리퍼의 온도는 상당히 낮은 수준을 유지한다는 것입니다. 물론 본 테스트에서는 테스트 샘플로 함께 제공된 3열 AIO 수냉 쿨러를 사용했기 때문에 일반적인 테스트 조건이라고 보기에는 어폐가 있을 수 있습니다. 하지만 마이크로 핀이 히트 스프레더의 모든 코어 부분을 덮지 못하는 크기라는 점을 감안한다면 상당히 안정적인 발열량을 보였다고 볼 수 있습니다. 빠르고 안정적으로 팬이 회전하도록 하기 위해서 Tctl 온도의 경우 실제 온도보다 27℃ 가량 높게 잡았다는 점을 고려한다면, 대다수의 테스트에서 70℃를 채 넘지 않는 준수한 온도를 보였다고 볼 수 있습니다. 16코어/12코어를 지닌 제품의 온도치고는 상당히 안정적인 수치입니다.


소비전력 역시 무난한 수치를 보였습니다. 1950X가 All-Core Boost Clock에서 3.5~3.6GHz 수준을 유지하면서 전반적인 소비전력 패턴이 1920X와 비슷한 수치가 나왔는데, 이 수치는 인텔 i9-7900X보다 조금 높거나 비슷한 수준입니다. 코어가 더 많음에도 낮은 발열량과 소비전력 수준을 지닐 수 있는 것은, 누설전류 등으로 낭비되는 자원을 줄이기 위한 AMD의 다양한 노력과 더불어 고밀도 라이브러리 정책으로 내부 구성을 탄탄하게 했기 때문이라고 추측해볼 수 있습니다.

성능에 대해서도 제법 만족스러운 모습을 보여주었는데, AMD 프로세서로 고성능 컴퓨팅 시스템을 구현하고자 했던 사용자라면 환영할 만한 이야기일 것입니다. 매니코어를 적극적으로 활용하는 렌더링 및 인코딩 분야에서 1950X와 1920X는 좋은 성적을 기록했고, 벤치마크 툴 테스트에서도 꾸준히 상위권에 랭크했습니다. MCM 형태의 2칩으로 구성되어 있어 레이턴시의 문제가 발생할 우려가 있었는데, AMD 역시 이러한 부분을 간과하지 않고 메모리 액세스 모드와 Legacy Compatibility 모드를 라이젠 마스터에 포함시켜 사용자의 시스템 사용 환경이나 상태에 따라 메모리 대역폭과 레이턴시 중 적절한 쪽을 선택하는 것이 가능해졌습니다. 해당 모드가 라이젠에 적용될 가능성이 있는지는 잘 모르겠지만, 적어도 스레드리퍼를 사용하는 사용자에게는 적절한 활용 아이템이 될 것이라고 봅니다. 단, 어떠한 게임이나 소프트웨어에서 최적의 성능을 발휘하는지에 대해서는 커뮤니티나 포럼을 통해 유저들의 활발한 정보 교환이 필요하리라 생각됩니다.

하이엔드 데스크톱 시장은 AMD에게 늘 그림의 떡과 같았을 것입니다. 인텔이 독주하던 시장에 드디어 진출하게 된 AMD의 첫 시작은, 필자의 개인적인 생각으로 크게 나빠보이지는 않습니다. 매니코어로 구성된 거대한 칩은 젠 아키텍쳐를 품어 높은 성능과 낮은 발열, 적절한 수준의 소비전력을 발휘하는데 성공했습니다. 다만, 해결해야 할 문제점도 있는 것이 사실입니다. MCM 구조로 제조된 칩이기 때문에 PCIe 3.0 레인 역시 각 다이마다 별도로 제공을 받을 텐데, NVMe 레이드 구성이 빠진 것도 이러한 이유일 것입니다. 빠른 시일 내에 해결될 문제이기는 하겠으나, 특정 상황에서 라이젠처럼 배수 고정이 되는 문제점도 있었습니다. 물론 필자는 이번 테스트에서 모든 성능 측정을 깊고 충실하게 진행해보지 못했기에, 본 기사가 업로드되는 시점에서는 이미 바이오스 수정으로 고쳐진 문제가 존재할 수도 있습니다.


일반 데스크톱 제품군인 라이젠 시리즈가 공개된 이후, AMD는 전세계 CPU 점유율의 상당 부분을 회복하는 것에 성공했습니다. 뒤이어 많은 사람들의 기대 속에서 출시하는 스레드리퍼 시리즈 역시 "가격"이라는 큰 고민거리를 포함하여 다양한 측면에서 장점을 고루 갖추고 있어 흥행 여부가 기대됩니다. 또한, 빠른 시일 내에 출시가 예정되어 있는 서버/워크스테이션용 프로세서인 "에픽(EPYC)" 역시 어느 정도의 컴퓨팅 파워를 보여줄 지에 대해 기대가 모아지는 중입니다.



다시금 이야기하지만, 스레드리퍼는 HEDT 라인업 프로세서입니다. 따라서 개인 사용자 중에서 강력한 컴퓨팅 파워를 필요로 하거나 3D 이미지 렌더링이나 동영상 편집과 같이 무거운 작업을 요구하는 크리에이터, 게임과 스트리밍 서비스를 동시에 하고자 하는 스트리머 등 일반 데스크톱 시스템보다 한층 더 높은 성능을 요구하는 사용자에게 충분한 메리트를 제공하는 제품이 되지 않을까 생각합니다.

만약 새로운 HEDT 라인업 제품으로 시스템을 구상하고자 한다면, 높은 시스템 성능으로 다양한 작업에서 충분한 만족감을 느끼길 원한다면 스레드리퍼와 sTR4 메인보드를 이용하여 고성능 시스템을 꾸려보는 것은 어떨까요?

* MSRP(공시가) : AMD Ryzen Threadripper 1950X - $999 / AMD Ryzen Threadripper 1920X - $799

* 국내 예약 소비자가 : AMD Ryzen Threadripper 1950X - 1,387,000원 / AMD Ryzen Threadripper 1920X - 1,104,000원

이 콘텐츠에 대해 어떻게 생각하시나요?