Gemma 4 12B: 통합형 인코더 없는 멀티모달 모델
4 hours ago
3
- Gemma 4 12B는 노트북에서 에이전트형 멀티모달 지능을 실행하도록 설계된 중간 크기 모델이며, edge 친화적인 E4B와 더 고급인 26B MoE 사이의 간극을 메움
- 인코더 없는 통합 아키텍처로 이미지와 오디오 입력을 별도 멀티모달 인코더 없이 LLM 백본에 직접 흘려보내 지연 시간과 메모리 사용을 줄이는 방향을 택함
- 표준 벤치마크 성능이 더 큰 26B MoE 모델에 근접하면서도 전체 메모리 사용량은 절반 미만이며, 16GB RAM 또는 VRAM/통합 메모리 환경의 소비자 노트북에서 로컬 실행 가능함
- Gemma 4 12B는 Gemma 계열 최초의 중간 크기 모델로 네이티브 오디오 입력을 지원하고, Multi-Token Prediction drafters로 지연 시간 감소를 목표로 함
- Gemma 4 모델은 1억 5천만 다운로드를 넘었고, Gemma 4 12B는 Apache 2.0 라이선스와 주요 개발 도구·배포 경로 지원으로 로컬 멀티모달 에이전트 개발 범위를 넓힘
핵심 특징
- Gemma 4 12B는 노트북에 고성능 멀티모달 지능을 직접 가져오도록 설계됐으며, 모바일 우선 효율성과 고급 추론을 결합함
- edge 친화적인 E4B와 더 고급인 26B Mixture of Experts(MoE) 사이에 위치하며, 줄어든 메모리 풋프린트 안에 강력한 기능을 담음
- 주요 특징은 다음과 같음
- 멀티모달 인코더 없이 비전과 오디오 입력을 LLM 백본으로 직접 전달하는 통합 아키텍처
- 26B 모델에 근접한 벤치마크 성능과 다단계 추론·에이전트 워크플로우 지원
- 16GB VRAM 또는 통합 메모리만으로 로컬 실행 가능한 노트북 준비성
- Apache 2.0 라이선스와 개발자 생태계 지원
- Multi-Token Prediction(MTP) drafters를 통한 지연 시간 감소
인코더 없는 멀티모달 처리 방식
- 기존 멀티모달 모델은 보통 이미지와 오디오를 별도 인코더로 변환한 뒤 해당 표현을 언어 모델에 전달함
- Gemma 4 12B는 분리된 인코더가 지연 시간과 메모리 사용을 늘린다는 점을 피하기 위해 오디오와 비전 입력을 직접 통합하도록 학습됨
- 비전 처리에서는 Gemma 4의 비전 인코더를 단일 행렬 곱셈, 위치 임베딩, 정규화로 구성된 경량 임베딩 모듈로 대체해 LLM 백본이 시각 처리를 맡게 함
- 오디오 처리에서는 오디오 인코더를 완전히 제거하고 원시 오디오 신호를 텍스트 토큰과 같은 차원 공간으로 투영함
- 더 자세한 개발자용 구조 설명은 Gemma 4 12B Developer Guide에서 확인할 수 있음
사용 시작 경로
- 클릭 몇 번으로 LM Studio, Ollama, Google AI Edge Gallery App, Google AI Edge Eloquent 앱, LiteRT-LM CLI에서 실험 가능함
- 사전학습 및 instruction-tuned 체크포인트는 Hugging Face와 Kaggle에서 다운로드할 수 있음
- 통합과 학습에는 developer documentation과 quick start notebook을 사용할 수 있음
- 로컬 추론 파이프라인은 Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM로 구현할 수 있고, Unsloth로 효율적인 파인튜닝을 할 수 있음
- 공식 Skills Repository는 에이전트가 최신 Gemma 기능으로 빌드할 수 있도록 설계된 스킬 라이브러리임
- 프로덕션 엔드포인트는 Google Cloud에서 Gemini Enterprise Agent Platform Model Garden, Cloud Run, GKE를 통해 배포할 수 있음
-
Homepage
-
Tech blog
- Gemma 4 12B: 통합형 인코더 없는 멀티모달 모델