Gemma 4 12B: 통합형 인코더 없는 멀티모달 모델

4 hours ago 3

Gemma 4 12B는 노트북에서 에이전트형 멀티모달 지능을 실행하도록 설계된 중간 크기 모델이며, edge 친화적인 E4B와 더 고급인 26B MoE 사이의 간극을 메움
인코더 없는 통합 아키텍처로 이미지와 오디오 입력을 별도 멀티모달 인코더 없이 LLM 백본에 직접 흘려보내 지연 시간과 메모리 사용을 줄이는 방향을 택함
표준 벤치마크 성능이 더 큰 26B MoE 모델에 근접하면서도 전체 메모리 사용량은 절반 미만이며, 16GB RAM 또는 VRAM/통합 메모리 환경의 소비자 노트북에서 로컬 실행 가능함
Gemma 4 12B는 Gemma 계열 최초의 중간 크기 모델로 네이티브 오디오 입력을 지원하고, Multi-Token Prediction drafters로 지연 시간 감소를 목표로 함
Gemma 4 모델은 1억 5천만 다운로드를 넘었고, Gemma 4 12B는 Apache 2.0 라이선스와 주요 개발 도구·배포 경로 지원으로 로컬 멀티모달 에이전트 개발 범위를 넓힘

핵심 특징

Gemma 4 12B는 노트북에 고성능 멀티모달 지능을 직접 가져오도록 설계됐으며, 모바일 우선 효율성과 고급 추론을 결합함
edge 친화적인 E4B와 더 고급인 26B Mixture of Experts(MoE) 사이에 위치하며, 줄어든 메모리 풋프린트 안에 강력한 기능을 담음
주요 특징은 다음과 같음
- 멀티모달 인코더 없이 비전과 오디오 입력을 LLM 백본으로 직접 전달하는 통합 아키텍처
- 26B 모델에 근접한 벤치마크 성능과 다단계 추론·에이전트 워크플로우 지원
- 16GB VRAM 또는 통합 메모리만으로 로컬 실행 가능한 노트북 준비성
- Apache 2.0 라이선스와 개발자 생태계 지원
- Multi-Token Prediction(MTP) drafters를 통한 지연 시간 감소

기존 멀티모달 모델은 보통 이미지와 오디오를 별도 인코더로 변환한 뒤 해당 표현을 언어 모델에 전달함
Gemma 4 12B는 분리된 인코더가 지연 시간과 메모리 사용을 늘린다는 점을 피하기 위해 오디오와 비전 입력을 직접 통합하도록 학습됨
비전 처리에서는 Gemma 4의 비전 인코더를 단일 행렬 곱셈, 위치 임베딩, 정규화로 구성된 경량 임베딩 모듈로 대체해 LLM 백본이 시각 처리를 맡게 함
오디오 처리에서는 오디오 인코더를 완전히 제거하고 원시 오디오 신호를 텍스트 토큰과 같은 차원 공간으로 투영함
더 자세한 개발자용 구조 설명은 Gemma 4 12B Developer Guide에서 확인할 수 있음

클릭 몇 번으로 LM Studio, Ollama, Google AI Edge Gallery App, Google AI Edge Eloquent 앱, LiteRT-LM CLI에서 실험 가능함
사전학습 및 instruction-tuned 체크포인트는 Hugging Face와 Kaggle에서 다운로드할 수 있음
통합과 학습에는 developer documentation과 quick start notebook을 사용할 수 있음
로컬 추론 파이프라인은 Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM로 구현할 수 있고, Unsloth로 효율적인 파인튜닝을 할 수 있음
공식 Skills Repository는 에이전트가 최신 Gemma 기능으로 빌드할 수 있도록 설계된 스킬 라이브러리임
프로덕션 엔드포인트는 Google Cloud에서 Gemini Enterprise Agent Platform Model Garden, Cloud Run, GKE를 통해 배포할 수 있음