짐 켈러(Jim Keller)가 주도하는 칩 회사인 텐스토렌트(Tenstorrent)는 저렴한 가격에 좋은 성능을 제공할 것으로 예상되는 AI 워크로드용 차세대 웜홀 프로세서를 출시했습니다.이 회사는 현재 소프트웨어 개발자를 위한 TT-LoudBox 및 TT-QuietBox 워크스테이션뿐만 아니라 1개 또는 2개의 Wormhole 프로세서를 수용할 수 있는 2개의 추가 PCIe 카드를 제공합니다. 오늘의 모든 발표는 상용 작업에 Wormhole 보드를 사용하는 개발자가 아닌 개발자를 대상으로 합니다.
“우리 제품을 개발자의 손에 더 많이 제공할 수 있다는 것은 언제나 즐거운 일입니다. Wormhole™ 카드를 사용하는 릴리스 개발 시스템은 개발자가 멀티 칩 AI 소프트웨어를 확장하고 개발하는 데 도움이 될 수 있습니다.”라고 Tenstorrent의 CEO인 Jim Keller는 말했습니다.이번 출시에 더해 2세대 제품인 블랙홀의 테이프 아웃과 파워업을 통해 우리가 이루고 있는 진전을 보게 되어 매우 기쁩니다.”
각 Wormhole 프로세서에는 72개의 Tensix 코어(5개는 다양한 데이터 형식의 RISC-V 코어 지원)와 108MB의 SRAM이 포함되어 있어 160W의 열 설계 전력으로 1GHz에서 262 FP8 TFLOPS를 제공합니다. 단일 칩 Wormhole n150 카드에는 12GB GDDR6 비디오 메모리가 장착되어 있으며 대역폭은 288GB/s입니다.
웜홀 프로세서는 워크로드의 다양한 요구 사항을 충족할 수 있는 유연한 확장성을 제공합니다. 4개의 Wormhole n300 카드가 있는 표준 워크스테이션 설정에서 프로세서는 소프트웨어에 통합되고 광범위한 Tensix 코어 네트워크로 나타나는 단일 장치로 결합될 수 있습니다. 이 구성을 통해 가속기는 동일한 작업 부하를 처리하거나, 4명의 개발자에게 분할하거나, 최대 8개의 서로 다른 AI 모델을 동시에 실행할 수 있습니다. 이러한 확장성의 주요 특징은 가상화 없이 로컬로 실행할 수 있다는 것입니다. 데이터 센터 환경에서 Wormhole 프로세서는 기계 내부 확장을 위해 PCIe를 사용하거나 외부 확장을 위해 이더넷을 사용합니다.
성능 측면에서 Tenstorrent의 단일 칩 Wormhole n150 카드(72 Tensix 코어, 1GHz 주파수, 108MB SRAM, 12GB GDDR6, 288GB/s 대역폭)는 160W에서 262 FP8 TFLOPS를 달성한 반면, 듀얼 칩 Wormhole n300 보드는 (128개의 Tensix 코어, 1GHz 주파수, 192MB SRAM, 집계된 24GB GDDR6, 576GB/s 대역폭)은 300W에서 최대 466 FP8 TFLOPS를 제공합니다.
466 FP8 TFLOPS의 300W를 맥락에 맞게 설명하기 위해 AI 시장 선두업체인 Nvidia가 이 열 설계 전력에서 제공하는 것과 비교해 보겠습니다. Nvidia의 A100은 FP8을 지원하지 않지만 INT8을 지원하며 최고 성능은 624 TOPS(스파스 시 1,248 TOPS)입니다. 이에 비해 Nvidia의 H100은 FP8을 지원하고 300W에서 1,670 TFLOPS(스파스에서는 3,341 TFLOPS)의 최고 성능에 도달하는데, 이는 Tenstorrent의 Wormhole n300과 크게 다릅니다.
그러나 한 가지 큰 문제가 있습니다. Tenstorrent의 Wormhole n150 소매가는 999달러이고 n300은 1,399달러입니다. 이에 비해 단일 Nvidia H100 그래픽 카드의 소매가는 수량에 따라 30,000달러입니다. 물론 4개 또는 8개의 Wormhole 프로세서가 실제로 단일 H300의 성능을 제공할 수 있는지는 알 수 없지만 TDP는 각각 600W와 1200W입니다.
카드 외에도 Tenstorrent는 능동 냉각 기능을 갖춘 보다 저렴한 Xeon 기반 TT-LoudBox의 n300 카드 4개와 EPYC 기반 Xiaolong) 액체 냉각 기능을 갖춘 고급 TT-QuietBox를 포함하여 개발자를 위한 사전 구축된 워크스테이션을 제공합니다.
게시 시간: 2024년 7월 29일