구글, 학습·추론 전용 AI칩 공개…엔비디아에 도전장

5 hours ago 2

구글이 인공지능(AI) 학습과 추론에 특화된 2종의 텐서처리장치(TPU)를 21일(현지시간) 내놨다. 전작 대비 연산 성능과 효율을 모두 높여 그래픽처리장치(GPU)를 내세운 엔비디아가 독점한 AI 칩 시장에 균열을 낼지 주목된다.

◇ 가성비 AI칩 내놔

구글이 이날 발표한 TPU8t와 TPU8i는 구글이 자체 설계한 TPU의 8세대 모델이다. AI 모델을 구축하는 과정인 학습(training)과 AI 모델이 연산을 실행하는 추론(inference)의 앞 글자를 땄다. 전작들은 학습과 추론 겸용이었다.

아민 바흐다트 구글 인공지능(AI) 인프라 담당 부사장(왼쪽)이 21일(현지시간) 미국 라스베이거스에서 차세대 AI 칩 TPU8t와 TPU8i를 설명하고 있다. 김인엽 특파원

TPU8t는 전작인 7세대 ‘아이언우드’보다 연산 성능이 세 배 향상됐다. 구글은 TPU8t의 전력 대비 연산 효율이 기존 AI 칩보다 최소 두 배 이상 뛰어나다고 강조했다. 또 이를 통해 최첨단 AI 모델 개발 기간을 수개월에서 몇 주로 단축할 수 있다고 설명했다.

TPU8i는 추론 비용을 전작 대비 절반가량으로 줄였다. 최근 AI 모델이 급증하는 AI 연산 수요를 감당하기 위해 추론 비용 절감에 중점을 두는 상황에서 ‘가성비 추론 칩’을 내놓은 것이다. 속도도 빨라졌다.

구글은 “TPU8i를 통해 AI 에이전트에 질문하면 5초씩 기다릴 필요 없이 즉각 응답을 받을 수 있다”고 밝혔다. 추론의 병목점으로 꼽힌 메모리 용량을 대폭 늘린 게 주효했다. TPU8i의 고대역폭메모리(HBM) 용량은 288GB로 전작 대비 1.5배, S램 용량은 384MB로 3배 커졌다.

S램 용량을 늘려 추론 속도를 높인 것은 엔비디아가 지난달 미국 새너제이에서 열린 ‘GTC 2026’에서 공개한 추론용 AI 칩 ‘그록 LPU3’와 비슷한 전략이다. S램은 연산용 칩에 들어가는 메모리다. 대용량 데이터를 매번 HBM에서 연산용 반도체로 가져오는 과정에서 병목 현상이 생기는데, S램에 미리 저장한 데이터를 이용해 이 문제를 해결했다.

아민 바흐다트 구글 AI 인프라 담당 부사장은 “S램 용량을 늘린 것은 메모리의 한계를 허물기 위한 것”이라며 “거대한 데이터가 S램에 있어 지연 시간이 0에 가까워졌다”고 설명했다.

◇ 추론 시장 확대에 무게

구글이 추론용 칩을 별도로 출시한 것은 AI 칩 시장의 중심축이 추론으로 넘어갈 가능성이 높다는 판단에서다. 젠슨 황 엔비디아 최고경영자(CEO)도 GTC 2026에서 “추론의 변곡점이 왔다”고 선언했다.

바흐다트 부사장은 2000년대 초 구글이 ‘웹 인덱스(목차)’를 구축하던 당시 상황을 떠올리며 추론 칩을 별도로 개발했다고 설명했다. 그는 “당시에도 목차 생성이 주된 업무였지만 진정한 가치는 모델을 서비스하는 데서 나온다는 걸 알고 있었다”고 했다. 목차는 구글 검색 속도를 높이기 위해 웹 정보를 정리하는 작업이다. 당시엔 지금의 AI 모델을 학습시키는 것처럼 초기 비용이 많이 들었다.

이번 TPU 출시로 엔비디아와의 AI 칩 경쟁이 더욱 격화할 것이라는 전망이 나온다. 자사 검색·AI 모델 학습과 클라우드 운영에 TPU를 주로 쓰던 구글은 점차 외부 판매에도 공을 들이고 있다. 메타와 데이터센터에 TPU를 사용하는 내용의 수십억달러 규모 계약을 논의한 것으로 알려졌다. 엔비디아 칩 매출의 약 10%를 TPU 칩 사업에서 확보하는 게 구글의 목표다. 아마존도 AI 칩 ‘트레이니엄’을 내세워 경쟁에 참전했다.

한편 구글의 8세대 TPU에 들어가는 HBM 공급사와 관련해 바흐다트 부사장은 “코멘트하지 않겠다”며 “우리에게는 훌륭한 파트너가 아주 많다”고 했다.

라스베이거스=김인엽 특파원

Read Entire Article