짐 켈러가 이끄는 칩 회사 텐스토렌트는 인공지능 워크로드용 차세대 웜홀 프로세서를 출시했으며, 이 프로세서가 합리적인 가격에 우수한 성능을 제공할 것으로 기대하고 있습니다.현재 이 회사는 웜홀 프로세서를 하나 또는 두 개 장착할 수 있는 추가 PCIe 카드 두 종류와 소프트웨어 개발자를 위한 TT-LoudBox 및 TT-QuietBox 워크스테이션을 제공하고 있습니다. 오늘 발표된 모든 내용은 개발자를 대상으로 하며, 상용 워크로드에 웜홀 보드를 사용하는 사용자를 위한 것은 아닙니다.
“더 많은 개발자들이 저희 제품을 사용할 수 있게 되어 항상 기쁩니다. Wormhole™ 카드를 사용하는 릴리스 개발 시스템은 개발자들이 멀티칩 AI 소프트웨어를 확장하고 개발하는 데 도움이 될 수 있습니다.”라고 Tenstorrent의 CEO인 Jim Keller는 말했습니다.이번 출시와 더불어, 저희는 2세대 제품인 블랙홀의 테이프 아웃 및 전원 공급 과정에서 이루어지고 있는 진척 상황을 기대하고 있습니다."
각 웜홀 프로세서는 72개의 Tensix 코어(이 중 5개는 다양한 데이터 형식의 RISC-V 코어를 지원)와 108MB의 SRAM을 탑재하여 1GHz 클럭 속도에서 262 FP8 TFLOPS의 성능을 제공하며, TDP는 160W입니다. 단일 칩 웜홀 n150 카드는 12GB의 GDDR6 비디오 메모리를 갖추고 있으며, 288GB/s의 대역폭을 제공합니다.
웜홀 프로세서는 다양한 워크로드 요구 사항을 충족하는 유연한 확장성을 제공합니다. 웜홀 n300 카드 4개를 사용하는 표준 워크스테이션 구성에서, 프로세서들은 소프트웨어에서 통합된 광범위한 Tensix 코어 네트워크로 나타나는 단일 장치로 결합될 수 있습니다. 이러한 구성을 통해 가속기는 동일한 워크로드를 4명의 개발자가 분산하여 처리하거나 최대 8개의 서로 다른 AI 모델을 동시에 실행할 수 있습니다. 이러한 확장성의 핵심 특징은 가상화 없이 로컬에서 실행할 수 있다는 점입니다. 데이터 센터 환경에서 웜홀 프로세서는 시스템 내부 확장에는 PCIe를, 외부 확장에는 이더넷을 사용합니다.
성능 측면에서 Tenstorrent의 단일 칩 Wormhole n150 카드(72개의 Tensix 코어, 1GHz 주파수, 108MB SRAM, 12GB GDDR6, 288GB/s 대역폭)는 160W에서 262 FP8 TFLOPS를 달성했으며, 듀얼 칩 Wormhole n300 보드(128개의 Tensix 코어, 1GHz 주파수, 192MB SRAM, 총 24GB GDDR6, 576GB/s 대역폭)는 300W에서 최대 466 FP8 TFLOPS를 제공합니다.
300W에서 466 FP8 TFLOPS의 성능을 이해하기 쉽게 설명하기 위해, AI 시장 선두주자인 엔비디아가 동일한 TDP에서 제공하는 제품과 비교해 보겠습니다. 엔비디아의 A100은 FP8을 지원하지 않지만 INT8을 지원하며, 최대 성능은 624 TOPS(희소 연산 시 1,248 TOPS)입니다. 반면 엔비디아의 H100은 FP8을 지원하고 300W에서 최대 1,670 TFLOPS(희소 연산 시 3,341 TFLOPS)의 성능을 발휘하는데, 이는 Tenstorrent의 Wormhole n300과는 상당한 차이가 있습니다.
하지만 한 가지 큰 문제가 있습니다. Tenstorrent의 Wormhole n150은 999달러에 판매되는 반면, n300은 1,399달러에 판매됩니다. 이에 비해 엔비디아 H100 그래픽 카드 한 장의 가격은 수량에 따라 3만 달러에 달합니다. 물론 Wormhole 프로세서 4개 또는 8개가 실제로 H300 한 장의 성능을 낼 수 있을지는 알 수 없지만, 이들의 TDP는 각각 600W와 1200W입니다.
Tenstorrent는 그래픽 카드 외에도 개발자를 위한 조립식 워크스테이션을 제공합니다. 여기에는 보다 저렴한 Xeon 기반 액티브 쿨링 방식의 TT-LoudBox(4개의 n300 카드 탑재)와 EPYC 기반 Xiaolong(액체 냉각 기능 탑재)의 고급형 TT-QuietBox가 포함됩니다.
게시 시간: 2024년 7월 29일
