아크 B70 프로와 슈퍼클로로 구현되는 고효율 하이브리드 AI 환경 제안한 인텔

6 hours ago 4

인텔이 아크 프로 B70과 슈퍼클로를 앞세워 하이브리드 AI 생태계 강화에 나선다 / 출처=인텔

AI 업계의 화두는 추론(inference)이다. 학습한 AI 모델의 성능을 확대하려는 경쟁에서 완성된 모델을 어떻게 값싸고 빠르게 운용하는 방향으로 선회한 것이다. 문제는 추론 수요를 이끄는 주범이 챗봇이 아니라 ‘에이전트(Agent)’라는 점이다. 에이전트는 챗봇(명령 기반 AI 서비스)과 달리 스스로 여러 도구를 오가며 일을 처리한다. 이 과정에서 대량의 토큰 소비가 발생한다.

토큰 소비가 증가하면 기업의 비용 지출 외에도 데이터센터 내 메모리에 부담이 가중되어 인프라 운영 부담으로 이어진다. AI 모델이 문맥을 파악하기 위해 이전에 계산해둔 문맥 정보를 다시 꺼내 쓰는데, 이 데이터가 GPU 메모리에 저장되기 때문이다. 이를 KV 캐시(KV Cache)라 부른다. 대화가 길어지고 동시에 처리해야 할 요청이 늘어날수록 KV 캐시는 기하급수적으로 몸집을 불려 적게는 GPU 메모리의 30%, 많게는 75% 이상 점유한다.

기업의 민감 데이터에 대한 보안도 고민거리다. 회사의 핵심 기술 문서, 비공개 회의록, 개인정보가 포함된 민감한 데이터를 외부 클라우드로 전송해 AI에게 학습시키거나 분석을 맡기는 행위는 보안 리스크를 동반한다. 아무리 클라우드 업체들이 철저한 보안을 약속하더라도 내부 방화벽을 넘어가는 순간 통제권을 잃는지 모른다는 불안감을 지우기 어렵다.

이러한 산업 전반의 고민이 깊어지면서 AI 시장은 대안 찾기에 집중한다. ‘하이브리드 AI(Hybrid AI)’ 시스템이 주목받는 이유이기도 하다. 하이브리드 AI는 외부 검색이나 통상적인 정보 처리는 클라우드에 맡기고, 민감한 데이터 처리와 연속적인 에이전트 작업은 기업 내부의 워크스테이션(온-프레미스) 혹은 AI PC에서 직접 구동하는 방식이다.

데이터 통제권을 기업이 온전히 쥐면서도 클라우드 비용을 절감할 수 있는 하이브리드 AI 접근법은 이제 선택이 아닌 기업 생존을 위한 필수 전략으로 자리 잡는 추세다.

하이브리드 AI 생태계를 구축하려면 기업 내부에 AI 하드웨어 인프라가 뒷받침되어야 한다. 하지만 현재 고성능 그래픽 처리장치(GPU) 시장은 극심한 가격 인플레이션에 시달리며, 일부 주력 AI 가속기는 수천만 원을 호가해 일반 기업이 워크스테이션용으로 대량 도입하기에는 무리가 따른다. 이 틈새를 파고든 게 바로 인텔 아크 프로 B70 GPU와 슈퍼클로(SuperClaw)다.대용량 메모리에 래블업이 주목한 인텔 아크 프로 B70

인텔 아크 프로 B70의 가치를 파악한 기업은 국내 AI 인프라 플랫폼 전문 기업, 래블업(Lablup)이다. 2026년 6월, AI 플랫폼인 백엔드.AI(Backend.AI)에 이 제품을 추가한 래블업은 아크 프로 B70의 잠재력을 언급했다. 신정규 래블업 대표는 “아크 프로 B70이 제공하는 32GB 용량의 GDDR6 메모리는 다중 사용자 환경, 에이전틱 AI 등 메모리 집약적 작업에 적합하다”며 “백엔드.AI의 GPU 자원 관리와 모델 실행 환경을 GPU에 맞춰 최적화해 효율을 높였다”라고 말했다.

래블업이 인텔 아크 프로 B70에 주목한 이유는 AI 연산 과정에 필요한 KV 캐시 문제와 직결된다. 코딩 어시스턴트처럼 긴 문맥을 활용하는 에이전트 AI는 실제 서비스 환경에서 수십 개 넘게 동시에 작동하며 결과물을 만든다. 이때 메모리가 부족하면 KV 캐시를 지웠다가 다시 계산하는 과정이 반복되면서 처리 속도가 급격히 떨어진다. GPU 메모리 용량이 넉넉지 않을수록 이런 재계산 과정은 더 잦아지고, 결국 AI 처리 시간이 늘어나 작업 효율까지 낮아진다.

인텔 아크 프로 B70의 경쟁 GPU는 엔비디아 RTX 프로 4000 블랙웰(NVIDIA RTX PRO 4000 Blackwell)이다. 세부 사양은 다소 차이를 보이지만, 가장 두드러지는 차별점은 메모리 용량이다. 엔비디아 RTX 프로 4000 블랙웰이 24GB 메모리를 제공하는 것과 달리, 인텔 아크 프로 B70은 32GB 용량의 메모리를 갖췄다.

인텔 아크 프로 B70은 32GB 메모리를 갖춰 대규모 모델 처리에 유리하다 / 출처=래블업

래블업은 두 GPU로 vLLM 벤치마크 성능을 비교했다. GPT-OSS 20B, 큐원(Qwen)3 4B·8B 등 여러 오픈모델을 대상으로 동시 요청 개수를 늘려가며 테스트했다. 자료에 따르면 Qwen3 8B 모델 기준 동시 요청 16건에서 아크 프로 B70이 초당 188.2토큰을 처리해 엔비디아 제품 대비 2.24배 높은 처리량을 기록한 것으로 나타났다. 큰 모델인 GPT-OSS 20B에서도 동시 요청 32건까지 안정적인 성능을 유지하며 25% 앞섰고, 실사용 가능한 KV 캐시 용량도 평균 2.1배 여유를 보였다.

많은 AI 데이터 처리가 가능해지면서 토큰당 비용에서도 동급 경쟁 제품 대비 차별점을 보였다 / 출처=래블업

가격 대비 효율로 넘어가면 격차는 더 벌어진다. 아크 프로 B70의 출시가는 1099달러로 2199달러인 RTX PRO 4000 블랙웰의 절반 수준이다. AI 데이터 처리량과 가격을 함께 반영한 토큰당 비용 효율은 상황에 따라 최소 4.48배에서 최대 8.78배까지 차이가 발생했다는 게 래블업의 분석이다. 다만, 단일 사용자·저부하 환경의 전력 효율은 약 140W 수준으로 엔비디아 GPU가 앞선 모습을 보였다. 반대로 다중 사용자·고부하 상황에서는 아크 프로 B70의 와트당 토큰 효율이 우위를 점했다.

인텔 아크 프로 B70과 호흡 맞추는 슈퍼클로 플랫폼

인텔은 아크 프로 B70을 효율적으로 다룰 AI 에이전트 플랫폼, 슈퍼클로를 제안한다. 인텔 AI 슈퍼 빌더(AI Super Builder) 팀이 개발한 하이브리드 에이전틱 AI 솔루션인 슈퍼클로는 파일 접근이나 데이터 처리, 콘텐츠 생성처럼 민감하거나 빈번한 작업은 기기 안에서 우선 처리하고, 고난도 추론이나 외부 데이터 조회처럼 무거운 작업만 클라우드 모델로 넘기는 하이브리드 AI 구조를 갖는다. AI 데이터 처리에 대한 역할을 분담함으로써 토큰 소비량과 지연 시간을 아끼면서도 민감한 데이터를 외부로 내보내지 않아도 된다.

슈퍼클로는 인텔의 AI 슈퍼 빌더 플랫폼과 오픈소스 자율 에이전트 프레임워크 오픈클로(OpenClaw)를 결합한 구조다. 여러 AI 에이전트가 다단계 작업을 조율할 때 모델 컨텍스트 프로토콜(MCP)을 통신 규격으로 활용한다. 금융 정보 조회, 문서 자동 생성, 연동 시스템 간 업무 흐름 조정 같은 실무형 작업을 염두에 둔 설계다.

인텔이 공개한 자료에 따르면, 슈퍼클로는 클라우드 전용 에이전틱 AI 대비 컴퓨팅 토큰 소비량을 최대 70%까지 줄였다. 데이터를 분산 처리하는 방식과 맥락 압축, 재사용 가능한 메모리 구조가 토큰 절감으로 이어진다는 게 인텔 측 설명이다. 보안 측면에서도 성과를 강조했다. 업계 표준 AI 프라이버시 벤치마크로 테스트한 결과, 개인식별정보(PII)를 99% 정확도로 탐지했다는 것이다.

온-프레미스 인프라와 클라우드를 상황에 따라 사용함으로써 기업은 토큰 부담을 낮추고 데이터 주권 확보가 가능하다 / 출처=IT동아

인텔은 아크 프로 B70과 슈퍼클로의 시너지를 강조했다. 슈퍼클로는 온-프레미스 환경에서 얼마나 많은 일을 처리할 수 있느냐에 따라 전체 효율이 좌우되는 방식이다. 온-프레미스 인프라 내에서 처리할 수 있는 작업이 많을수록 클라우드를 쓰는 빈도가 줄고, 그만큼 토큰 비용과 데이터 이탈 위험도 줄어든다. 인텔 아크 프로 B70은 32GB 용량의 메모리가 탑재되므로 슈퍼클로가 여유롭게 GPU 내 메모리 활용이 가능하다.

하지만 슈퍼클로는 아직 사전(베타) 테스트 단계로 정식판은 2026년 7월 중 공개할 예정이다. 아직 검증이 더 필요한 단계라는 이야기다. 현재 인텔은 온-프레미스(내부) 처리와 클라우드 처리를 분류하는 과정의 정확도나 엔터프라이즈 정책 세분화 기능 보강 작업이 한창이다.

아크 프로 B70 역시 여유로운 메모리 용량은 눈에 띄는 차별점이지만, 경쟁사 GPU 대비 AI 소프트웨어 플랫폼 구축에서는 아쉬운 면도 보인다. 따라서 가격 대비 메모리 용량이라는 틈새시장을 공략한 전략적 접근으로 봐야 한다. 중요한 것은 기업의 AI 접근법이다. 토큰 비용과 데이터 주권 확보가 부각되는 지금의 AI 산업 흐름을 감안하면, 넉넉한 메모리를 갖춘 GPU와 온-프레미스 기반 에이전트 플랫폼을 제안한 인텔의 접근법은 기업들의 선택지 중 하나로 자리할 가능성이 열려 있다.

IT동아 강형석 기자 (redbk@itdonga.com)