“더 가볍고 빠르게” 노타·모빌린트, NPU 최적화 및 AI 사업 협력에 맞손

13 hours ago 3
AI 모델 최적화의 본질은 모델의 용량과 자원 활용량은 줄이면서도, 모델의 정확도와 성능은 최대한 유지시키는 데 있다. 주로 모델의 가중치와 활성 함수를 낮은 비트 수로 구현하는 양자화, 중요도가 낮은 값을 줄이는 가지치기, 큰 모델의 지식을 작은 모델에게 학습시켜 크기를 줄이는 지식 증류, 구조나 캐시 등을 개선해 추론 속도를 높이는 모델 압축 등이 있다.

이 중에서 가장 중요도가 높은 접근법은 양자화다. 지식 증류나 가지치기는 부가적인 작업이 필요하지만, 모델 양자화는 모델 구조를 크게 바꾸지 않고 즉시 추론 속도를 높이면서 메모리 점유율을 줄일 수 있다. 이런 특성 덕분에 AI 업계에서도 양자화에 집중하고 있으며 빅테크부터 스타트업까지 거의 모든 규모의 기업에서 기술을 개발 중이다.

양자화는 이미 학습이 끝낸 모델을 가져와서 가중치를 변환하는 사후 양자화, 향후 양자화를 고려해 모델을 구축하는 양자화 인식 학습 두 가지 방법이 대세다. 여기서 모델의 크기만 줄일 것인지, 연산 과정의 활성화값까지 줄일 것인지도 다양하게 고려한다. 핵심은 모델의 크기와 소모 자원은 줄이면서 가능한 성능은 유지하는 데 있다.

AI 모델 경량화 및 최적화 기술 기업 노타와 AI 반도체 기업 모빌린트가 전략적 파트너십을 맺는다 / 출처=노타

AI 모델 경량화 및 최적화 기술 기업 노타와 AI 반도체 기업 모빌린트가 전략적 파트너십을 맺는다 / 출처=노타

예를 들어 FP32로 제작된 70B 모델을 INT8까지 양자화하면 모델 용량은 최대 4배까지 줄고, 추론 속도는 1.5배가량 빨라진다. 스마트폰이나 엣지 컴퓨팅처럼 메모리가 제한된 환경에서도 양자화만 활용하면 대형언어모델을 자체적으로 구동할 수 있다. 이런 특성 덕분에 AI 모델 양자화 기업은 필연적으로 AI 반도체 기업들과 밀접한 협력 관계를 맺는 추세다.

노타와 모빌린트, 전략적 파트너십 구축 나서

국내에서도 AI 양자화를 위한 상호 협력 체계가 계속 구축되고 있다. 지난 7일 AI 모델 경량화 및 최적화 기술 기업 노타와 AI 반도체 기업 모빌린트가 AI 최적화 기술 공급 및 전략적 파트너십 구축 계약을 체결했다. 모빌린트의 신경망 처리 장치(NPU) 제품군인 MLA100, MLA400 등의 하드웨어에 노타의 자체적인 AI 모델 경량화 플랫폼 ‘넷츠프레소’를 라이선스 방식으로 제공해 사용자 맞춤형 경량화, 최적화된 AI 모델을 제공하는 게 골자다.

모빌린트는 지난 3월 26일, Arm 서버 전문 기업 엑세스랩과 협력해 엣지 AI 추론 Arm 서버 제품도 출시했다 / 출처=액세스랩

모빌린트는 지난 3월 26일, Arm 서버 전문 기업 엑세스랩과 협력해 엣지 AI 추론 Arm 서버 제품도 출시했다 / 출처=액세스랩

모빌린트의 NPU는 GPU의 낮은 전력 소모대 성능비 문제를 해결하고, 고효율로 AI 작업을 처리하기 위해 개발된 반도체다. 주력 반도체인 에리스(ARIES)는 80TOPS(초당 80조 회 연산)을 처리하며, 열설계전력(TDP)은 25W로 경량 노트북 수준이다. 제품은 PCIe 4세대 8레인 규격의 MLA100, 4장의 에리스 아키텍처를 바탕으로 최대 320TOPS 성능을 내는 MLA400, 온프레미스 환경을 위한 초소형 데스크톱 형태의 MLX-A1 엣지 AI 박스 등이 있다.모빌린트의 하드웨어는 연산 속도뿐만 아니라 메모리 접근을 최소화하고 데이터를 재사용하는 방식으로 전력 효율을 높인다. 또한 CNN(합성곱 신경망), RNN(순환 신경망), 트랜스포머 아키텍처를 포함한 400여 개 이상의 딥러닝 모델에서 테스트됐고, 넷츠프레소가 하드웨어 내부 캐시를 최대한 활용하도록 모델을 최적화하면 전력 소모대 성능비를 더 끌어올릴 수 있다.

노타가 개발 중인 비전 AI 설루션 NVA / 출처=노타

노타가 개발 중인 비전 AI 설루션 NVA / 출처=노타

이번 협력은 기술 교류를 넘어 비즈니스 모델의 통합까지 염두에 뒀다. 모빌린트가 라이선스 형식으로 넷츠프레소를 도입하면 자사 NPU 고객에게 하드웨어와 소프트웨어 최적화 도구를 단일 패키지로 제공하는 형식이 된다. 또한 노타가 자체 서비스 중인 비전 AI 설루션 NVA(노타 비전 에이전트를 모빌린트 MLA100 및 MLA400 기반 카드로 구동하는 방안도 검토하기로 해 장기적으로 하드웨어와 AI 설루션을 공동 납품하는 사업까지도 구상할 수 있다.

국내 기업 간의 협업, K-NPU 활성화에 꾸준한 기여

신동주 모빌린트 대표(우측에서 두 번째)가 모빌린트를 방문한 정보통신기획평가원(IITP) 관계자들을 대상으로 제품 등을 설명 중이다 / 출처=모빌린트

신동주 모빌린트 대표(우측에서 두 번째)가 모빌린트를 방문한 정보통신기획평가원(IITP) 관계자들을 대상으로 제품 등을 설명 중이다 / 출처=모빌린트

우리 정부가 추진 중인 K-NPU 프로젝트 측면에서도 유의미하다. K-NPU 프로젝트는 공공 AI 전환에 국산 NPU를 도입해 초기 시장 진출을 돕는 프로젝트다. 자동차, 가전, IoT, 로봇 등 4대 주력 산업에 K-온디바이스 AI 반도체 상용화를 지원하고, 민관 합작 AI 컴퓨팅 센터에 NPU 신제품 등을 실증하는 과제 등이 추진된다. 모빌린트는 이 프로젝트에 핵심 참여 기업 중 하나고, 노타 역시 퓨리오사AI와의 협력을 통해 간접적으로 참여 중이다. 국내 기업들이 상호 력해 실증 사례와 비즈니스 모델을 구축하면 정부가 추진하는 K-NPU 프로젝트 역시 한층 더 탄력을 받을 전망이다.

IT동아 남시현 기자 (sh@itdonga.com)

  • 좋아요 0
  • 슬퍼요 0
  • 화나요 0

지금 뜨는 뉴스

Read Entire Article