DeepSeek V4–프런티어에 거의 근접했고 가격은 일부 수준

7 hours ago 3

DeepSeek가 V4 시리즈 첫 모델로 DeepSeek-V4-Pro와 DeepSeek-V4-Flash 프리뷰 모델을 공개했으며, 두 모델 모두 100만 토큰 컨텍스트를 지원하는 Mixture of Experts 모델이고 MIT 라이선스로 제공됨
DeepSeek-V4-Pro는 총 1.6T 파라미터와 활성 49B 파라미터를 갖춘 모델로, Kimi K2.6, GLM-5.1, DeepSeek V3.2보다 큰 새 최대 오픈 가중치 모델로 보임
DeepSeek V4의 핵심 차별점은 가격으로, Flash는 입력 100만 토큰당 $0.14·출력 $0.28, Pro는 입력 $1.74·출력 $3.48로 비교 대상 소형·대형 모델보다 낮게 책정됨
낮은 가격은 긴 컨텍스트 효율화와 연결되며, 100만 토큰 컨텍스트에서 Pro는 DeepSeek-V3.2 대비 단일 토큰 FLOPs 27%·KV 캐시 10%, Flash는 FLOPs 10%·KV 캐시 7% 수준까지 낮아짐
자체 벤치마크에서 DeepSeek-V4-Pro는 프런티어 모델과 경쟁 가능하지만 GPT-5.4와 Gemini-3.1-Pro보다는 약간 낮고, 최첨단 프런티어 모델보다 약 3~6개월 뒤처진 개발 궤적을 보임

모델 공개와 기본 사양

DeepSeek가 2025년 12월 V3.2와 V3.2 Speciale 이후 V4 시리즈의 첫 모델로 DeepSeek-V4-Pro와 DeepSeek-V4-Flash 프리뷰 모델 2종을 공개함
두 모델 모두 100만 토큰 컨텍스트를 지원하는 Mixture of Experts 모델이며, 표준 MIT 라이선스를 사용함
DeepSeek-V4-Pro는 총 1.6T 파라미터와 활성 49B 파라미터를 갖춘 모델이고, DeepSeek-V4-Flash는 총 284B 파라미터와 활성 13B 파라미터를 갖춘 모델임
DeepSeek-V4-Pro는 Kimi K2.6의 1.1T, GLM-5.1의 754B, DeepSeek V3.2의 685B보다 커서 새 최대 오픈 가중치 모델로 보임
Hugging Face 기준 모델 크기는 Pro가 865GB, Flash가 160GB이며, 가볍게 양자화된 Flash는 128GB M5 MacBook Pro에서 실행될 수 있을 것으로 기대됨
Pro 모델도 필요한 활성 전문가(expert)만 디스크에서 스트리밍할 수 있다면 같은 머신에서 실행될 가능성이 있음
OpenRouter를 통한 간단한 테스트
- OpenRouter와 llm-openrouter를 사용해 다음 명령으로 모델을 호출함
- llm install llm-openrouter llm openrouter refresh llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle'
- 생성 결과로 DeepSeek-V4-Flash의 펠리컨 SVG와 DeepSeek-V4-Pro의 펠리컨 SVG가 공개됨
- 비교 대상으로 2025년 12월 DeepSeek V3.2, 2025년 8월 V3.1, 2025년 3월 V3-0324의 같은 프롬프트 결과가 함께 제시됨

가격, 효율, 성능 위치

DeepSeek V4에서 가장 두드러지는 요소는 가격이며, DeepSeek 가격 페이지 기준 Flash는 입력 100만 토큰당 $0.14, 출력 100만 토큰당 $0.28임
Pro는 입력 100만 토큰당 $1.74, 출력 100만 토큰당 $3.48로 책정됨
비교 표에서 DeepSeek V4 Flash는 GPT-5.4 Nano의 입력 $0.20·출력 $1.25, Gemini 3.1 Flash-Lite의 입력 $0.25·출력 $1.50보다 낮아 소형 모델 중 가장 저렴함
DeepSeek V4 Pro는 Gemini 3.1 Pro의 입력 $2·출력 $12, GPT-5.4의 입력 $2.50·출력 $15, Claude Sonnet 4.6의 입력 $3·출력 $15, Claude Opus 4.7의 입력 $5·출력 $25, GPT-5.5의 입력 $5·출력 $30보다 낮아 대형 프런티어 모델 중 가장 저렴함
효율화가 낮은 가격을 뒷받침함
- DeepSeek 논문은 이번 릴리스에서 긴 컨텍스트 프롬프트 효율에 크게 집중했다고 밝힘
- 100만 토큰 컨텍스트에서 DeepSeek-V4-Pro는 DeepSeek-V3.2 대비 단일 토큰 FLOPs가 27%, KV 캐시 크기가 10% 에 그침
- 같은 조건에서 DeepSeek-V4-Flash는 DeepSeek-V3.2 대비 단일 토큰 FLOPs가 10%, KV 캐시 크기가 7% 까지 낮아짐
벤치마크상 프런티어에 근접하지만 최상위에는 뒤처짐
- DeepSeek의 자체 보고 벤치마크는 Pro 모델이 다른 프런티어 모델과 경쟁 가능하다는 결과를 제시함
- 논문에 따르면 추론 토큰 확장을 적용한 DeepSeek-V4-Pro-Max는 표준 추론 벤치마크에서 GPT-5.2와 Gemini-3.0-Pro보다 높은 성능을 보임
- 다만 GPT-5.4와 Gemini-3.1-Pro보다는 약간 낮으며, 최첨단 프런티어 모델보다 약 3~6개월 뒤처진 개발 궤적을 보임
- huggingface.co/unsloth/models에서 Unsloth의 양자화 버전 공개가 기대되며, Flash 모델이 로컬 머신에서 얼마나 잘 실행될지가 관심사로 남음