짐 켈러의 텐스토렌트, ‘블랙홀’ AI 가속기로 IT 인프라 판도 뒤집을까

9 hours ago 4

캐나다의 AI 반도체 스타트업 텐스토렌트(Tenstorrent)가 현지시간으로 5월 1일 차세대 AI 반도체 ‘블랙홀’ AI 가속기와 서버용 ‘갤럭시’ 시스템을 정식으로 선보였다. 텐스토렌트는 2016년 설립된 AI 반도체 전문 설계 기업으로 지금은 반도체 업계의 전설적인 설계자로 불리는 짐 켈러(Jim keller)가 최고경영자로 있다. 텐스토렌트는 오픈소스 기반의 명령어 집합 구조 기반의 RISC-V(리스크 파이브)를 기반으로 독자적인 AI 반도체를 설계하고 생태계를 구축 중이다.

짐 켈러 텐스토렌트 최고경영자, 제미나이 생성형 AI로 이미지 업스케일링 적용 / 출처=텐스토렌트

텐스토렌트는 지난달 개최된 개발자 행사에서 RISC-V 코어를 활용한 AI 가속기 ‘블랙홀’을 정식으로 선보였으며, 이번에 TT-DEPLOY라는 행사를 통해 32개의 블랙홀 카드를 탑재한 ‘갤럭시’ 서버 시스템을 출시했다.

짐 켈러 텐스토렌트 대표는 “2년 전 출시한 메타의 Llama 7B를 지금 기억하는 사람은 많지 않다. AI는 빠르게 발전하고 있고 성과가 매우 중요한 시장이다. AI 컴퓨터를 만들려면 이 점을 고려해야 한다”라면서 “텐스토렌트는 어떤 특정 분야에 특화된 공급업체가 되자고 하는 게 아니라 우리의 다양한 문제를 해결하는 기업”이라며 발표를 시작했다.

웜홀 이어 블랙홀 아키텍처 출시··· 곧바로 서버 시장 돌입

짐 캘러는 “우리는 항상 규모에 대해 생각해 왔다. 웜홀 칩에는 100기가 이더넷 포트 16개와 400기가비트 이더넷 포트 12개가 탑재돼있다. 블랙홀 칩에도 이더넷 포트와 소프트웨어 스택이 잘 갖춰져 있고, 수많은 범용 서버에서 효과를 보기 시작했다. 하지만 LLM의 일부만 운영하는 것은 장기적으로 좋은 사업계획은 아니어서 우리는 추론과 대규모 모델 학습을 모두 집중해왔다” 라면서 “소프트웨어 스택을 만들고, 이미지와 비디오, LLM을 비롯한 모든 것을 염두에 두고 있다”라고 설명했다.

그러면서 비용 측면도 고려하고 있다. 짐 켈러는 “비용 역시 신경 써야할 부분이다. 크고 비싼 패키지와 다중으로 다이를 구성하는 것은 정답이 아니다. 실리콘 인터포저(HBM 탑재 시 필요한 최신 패키징 공정)도 비싸다. 그래서 블랙홀은 6나노미터로 설계됐으며, GDDR6 메모리, 표준 이더넷, 공랭식 냉각을 채택했다. 수랭식을 요구하는 고객도 있지만 비용 절감이 최우선이다”라고 설명했다.

지난 달 공개된 텐스토렌트 블랙홀 p100a AI 가속기 / 출처=텐스토렌트

그의 설명대로 텐스토렌트 블랙홀은 가능한 경제적인 구성을 채택하고 있다. 블랙홀 p100a 칩은 120개의 텐식스 코어는 오픈소스 기반의 RISC-V로 설계되어 라이선스 비용을 줄였고, 메모리도 고가의 HBM 대신 28GB의 GDDR6를 탑재해 용량 대비 가격을 줄였다. 전력 소비도 최대 300W 수준으로 운용 비용도 저렴하다. 블랙홀 카드는 현재 999달러(약 147만 원대)부터 시작하며, 반도체 시제품(A0)이 출하되고 마지막으로 소프트웨어 오류를 잡고 있는 상황이다.텐스토렌트 갤럭시 블랙홀은 32개의 블랙홀 가속기가 연결된 서버다. 성능면에서는 FP8 기준 23 페타플롭스의 성능을 내며, 6.2GB의 SRAM와 1TB의 GDDR6 메모리를 갖췄다. 호스트 CPU는 AMD 에픽 9004를 활용하며, 총 576GB의 시스템 메모리를 탑재한다. 규격은 6개의 랙마운트로 구성된 공랭식 섀시를 활용하며, 가격은 11만 달러(약 1억 6200만 원대)부터 시작한다. 7만 달러(약 1억 300만 원대)부터 시작하는 갤럭시 웜홀 서버보다 2배 이상 연산 성능이 높아진 점이 핵심이다.GPU 대비 압도적인 경제성에 비디오 생성도 지원

AI 분석 전문 기관 아티피셜 애널리시스가 딥시크 R1 3.2 버전을 바탕으로 추론 속도를 비교한 결과에서는 구글 버텍스가 144, 파이어웍스가 144라는 값이 나올 때 텐스토렌트의 서비스 제공 값이 350으로 나타났다. 이는 텐스토렌트의 하드웨어를 활용해 토큰 등을 처리하는 값이 상용 서비스에 비해 충분히 상업성이 있음을 보여준다. 이어서 딥시크 R1 671B를 엔비디아 GB300 NVL72와 텐스토렌트 갤럭시 블랙홀로 서비스했을 때의 상세 비용도 제시됐다.

엔비디아 GB300 NVL72로 딥시크 R1 671B 구동 시 초당 200토큰 이상부터 비용이 급증하나, 텐스토렌트 갤럭시 블랙홀은 500토큰에서도 비용이 높지 않다 / 출처=텐스토렌트

엔비디아 GB300 NVL72의 경우 토큰량이 적은 작업에서는 유리하지만 초당 200토큰을 넘어가는 순간부터 이용료가 증가하며 300토큰부터는 약 30달러(4만 4100원)에 육박한다. 이때문에 대다수 클라우드 서비스 기업은 딥시크 R1 모델을 150토큰 이하에서 제공한다. 반면 갤럭시 블랙홀 서버는 350토큰까지 이용료가 5달러(7360원)를 넘지 않고, 500토큰을 넘어도 이용료는 6달러(8830원) 수준이다. 텐스토렌트는 딥시크 V4, GLM, 키미, 미니맥스, 큐웬 3.5등 다른 대형 AI 모델 등도 경제적으로 운영할 수 있도록 작업 중이다.

동영상 생성 속도 역시 다른 하드웨어 조합과 비교해 수십 배 빠를 정도로 월등한 효율을 보여줬다 / 출처=텐스토렌트

또한 비디오 생성 API도 지원한다. 타사 NPU가 LLM, 이미지 분석, 영상 분석 등 하나의 분야에 최적화되고 있는 상황에서 다른 추론 작업도 가능하다는 점을 보여준다. 심지어 현재 출시된 비디오 생성 API 중 가장 빠르다. 아티피셜 애널리시스가 Wan 2.2 A14B 모델로 720p 영상을 생성한 결과, 엔비디아와 프로디아 API를 조합한 결과에서는 초당 3.5프레임, 그록-이미지-비디오와 xAI 조합에서는 5.5프레임, 텐스토렌트와 프로디아를 조합한 결과에서는 33.8프레임을 획득했다. 초당 30프레임 수준의 영상 처리 성능이라면 제작자가 실시간으로 영상을 디렉팅 하며 생성할 수 있을 정도다.

몬티 앤더슨 프로디아 공동창업자는 “텐스토렌트 가속기의 실시간 연산 성능 향상은 하드웨어 개선뿐만 아니다. GPU는 무차별 대입 방식을 통한 확장으로 작업하는 반면 텐스토렌트는 추론에 최적화된 작업을 해냈다. 이 과정에서 모델을 변환하는 것은 매우 쉬웠고 앞으로 더 많은 모델이 통합되기를 기대한다”라고 말했다.

소프트웨어 지원도 파이토치, 텐서플로, 오닉스 등 업계 전반에 널리 쓰이는 규격을 그대로 활용할 수 있도록 제공된다 / 출처=텐스토렌트

신규 AI 반도체 기업들이 가장 어려운 문제로 손꼽는 소프트웨어 문제도 해결 중이다. 텐스토렌트의 자체 소프트웨어인 TT-메탈리움을 활용하면 사용자가 텐식스 코어 내 RISC-V 프로세서, 네트워크 온 칩, 매트릭스 및 벡터 엔진에 직접 접근할 수 있다. 게다가 TT-포지라는 독자적인 컴파일러를 활용해 파이썬 API는 기본이고 파이토치, 텐서플로, 오닉스, 트리톤 같은 현재 사용되는 다양한 머신러닝 프레임워크도 모두 변환해서 사용할 수 있다. 여기에는 추론뿐만 아니라 학습도 포함이다.

그간 신경망처리장치(NPU)는 GPU보다 범용성이 부족하다는 인식이 있었지만 텐스토렌트는 NPU 역시 범용성 있게 활용할 수 있음을 보여줬다. 게다가 오픈소스를 기반으로 해 다른 NPU 제조사들 역시 리버스 엔지니어링 등을 시도해 볼 여지가 있다.

텐스토렌트의 기조, 모두를 박살 낼 것(Crush Everyone)

발표 중간에 ‘박살내다(Crush)’라는 말이 나온다. 심지어 공식적인 기조라는 농담도 오간다. 이는 텐스토렌트가 엔비디아의 안티테제적 성향을 가진 기업이기 때문이다. 엔비디아는 수십 년에 걸쳐 쿠다 생태계를 구축하고 독점적인 시장 지위를 만들었다. AI 시장 전반이 엔비디아의 영향력 아래 있다.

텐스토렌트는 이런 구조를 부수고 싶어 한다. 핵심 가속기도 오픈소스 기반인 RISC-V로 자체 설계했고, 주요 소프트웨어와 연결성도 오픈소스나 표준 규격을 활용한다. 엔비디아가 강력한 성능과 독자 생태계로 산업을 만든다면, 텐스토렌트는 모든 AI 기업에 하드웨어와 소프트웨어를 지원하겠다는 전략이다. AI 업계가 더 포용적이고 연대해야 성장할 수 있다는 것이 이들의 생각이다.

텐스토렌트는 짐 켈러가 이끌고 있다는 것 하나만으로 전 세계적인 주목을 받고 있다 / 출처=텐스토렌트

2026년 현재 많은 AI 반도체 기업이 생태계를 확보에 어려움을 겪고 있다. 학습과 추론 시장 전반에서 엔비디아의 영향력이 너무 크고, 규모가 큰 하이퍼스케일러들은 자체 반도체를 설계해 반도체 스타트업들도 판로를 개척하기 어려운 상황이다. 그렇지만 텐스토렌트는 포용적인 AI 접근 전략, 그리고 짐 켈러라는 전설적인 반도체 설계자를 앞세워 업계 최전선을 개척 중이다.

특히나 이번 발표에서 세계 최고 성능의 동영상 생성 능력, 엔비디아의 5분의 1에 불과한 운용 비용, 이더넷 기반의 장치 연결성 등을 놓고 AI 인프라 업계도 환호성을 보냈다. 텐스토렌트가 근거 있는 자신감을 앞세워 독자적이고 포용적인 AI 생태계를 잘 만들길 바란다.

IT동아 남시현 기자 (sh@itdonga.com)