LLM들은 얼마나 클까? (2025년 현황)

9 hours ago 2

GPT-2, GPT-3, Llama, Mixtral, DeepSeek, Minimax, Hunyuan 등 주요 대형 언어 모델의 파라미터(매개변수) 규모와 구조에 대한 객관적 정보와 변천사 정리
GPT-2 (2019년) 는 1.3억~16억 파라미터, GPT-3 (2020년) 는 1,750억(175B) 파라미터, Llama-3.1(2024년) 은 4050억(405B) 파라미터 등으로 대형 모델의 크기가 빠르게 증가함
MoE(전문가 혼합) 구조의 등장으로 GPT-3급 이상 모델이 오픈 소스/다운로드 가능하게 되었으며, 대표적으로 DeepSeek V3 Base(6710억), ERNIE-4.5(4240억), Mixtral-8x22B(1410억) 등 다양한 초대형 모델들이 등장함
Dense(모든 파라미터를 사용) 모델과 MoE(일부 전문가 파라미터만 활성화) 모델의 비교가 복잡해졌으며, 실질적인 "지능" 비교가 쉽지 않음
최근에는 다중 모달·다중 언어 지원, 새로운 아키텍처, 합성 데이터 활용 등 다양한 발전 트렌드가 나타남

이 문서는 최근 몇 년간 대형 언어 모델(LLM)의 기초 모델(베이스 모델) 규모 변화에 대한 사실 정보를 정리한 내용임
챗봇·어시스턴트가 아니라 텍스트 생성 엔진 본연의 모델에 초점을 맞추고 있음

역사

GPT-2(-medium, -large, -xl) (2019): 각각 1.37억, 3.8억, 8.12억, 16.1억 파라미터
- 약 40GB의 웹텍스트 데이터셋(10억 토큰 추정) 기반으로 훈련됨
- 사용된 사이트 목록은 domains.txt에서 확인 가능함
GPT-3(davinci, davinci-002) (2020): 1,750억 파라미터
- CommonCrawl, WebText2, Books1·2, Wikipedia 등 약 4000억 토큰 데이터로 훈련됨
- 대규모 A100 GPU 수천 대로 수개월간 학습 필요
GPT-3.5, GPT-4 (2022, 2023): 아키텍처 및 데이터 관련 공식적 정보 비공개

Llama

Llama는 Meta(구 Facebook)에서 개발한 대형 언어 모델 시리즈로, 오픈 소스화와 상대적으로 적은 리소스로도 활용 가능한 구조로 주목받음
모델 크기(파라미터 수) 와 학습 데이터, 아키텍처의 진화 과정이 LLM(대형 언어 모델) 오픈소스 트렌드를 이끌었음
Llama 1 (2023)
- 7B, 13B, 33B, 65B: 70억, 130억, 330억, 650억 파라미터 제공
- 학습 데이터: 1.4조(1.4T) 토큰의 대규모 텍스트(Books3, CommonCrawl 등)
- Llama 65B는 당시 오픈 모델 중 최대 규모였음
- Books3는 저작권 관련 법제 논의의 중요한 계기가 된 대규모 데이터임
- 특징
  - 상대적으로 작은 GPU로도 실행 가능(65B도 8장 GPU로 동작)
  - 오픈 가중치 배포로, 다양한 파생 모델과 커뮤니티 실험 확산
Llama 2 (2023 하반기)
- 공개 당시 70억, 130억, 700억 파라미터 제공(7B, 13B, 70B)
- 대화형(챗봇) 버전도 공개, fine-tuning 및 RLHF(강화학습) 등 지원
- 커뮤니티와 상업적 용도까지 허용되는 라이선스(단, 일부 제한)
Llama 3.1 (2024)
- 405B: 4050억 dense(모든 파라미터 사용) 파라미터
- 학습 데이터: 2.87조 토큰 + 8000억 롱 컨텍스트 + 4000만 annealing(고품질 코드/수학 등 추가) → 총 3.67조 토큰
- 아키텍처
  - Transformer 기반, 모든 파라미터를 추론 과정에 동시 활용(dense)
  - 고품질 코드·수학 데이터 추가로 주요 벤치마크 점수 극대화(annealing)
- 특징
  - 대형 dense 모델 중 다운로드 가능한 최신 모델(오픈 소스)
  - Meta가 공개적으로 데이터셋 구성을 밝히지 않으며, 일부 저작권 논란 데이터(Books3 등) 포함 가능성 있음
  - 일부 평가에선 "어시스턴트 성향"이 강화되어, 순수 텍스트 엔진으로서의 역할과 약간의 차이
Llama 4 (2025)
- 가장 큰 모델: 2조(2T) 파라미터 MoE(Mixture-of-Experts, 전문가 혼합 구조)
  - A288B 16E: 활성 2.88억 파라미터, 16개 전문가, 전체 2조 파라미터 중 일부만 활성화
- 상황
  - 2T 모델은 미공개(내부 실험용), 파생/축소 버전만 외부 공개(maverick, scout 등)
  - 파생 모델은 원본 대비 "지능"이 낮다는 평가가 많음
  - 공개 과정에서 벤치마크 점수 조작 논란(lmarena 사건) 등으로 신뢰도 하락 및 팀 해체설
- MoE 구조 특징
  - 일부 전문가 파라미터만 활성화해, dense 모델보다 같은 파라미터 수 대비 연산 효율 우수
  - 초대형 모델도 실사용 가능(분산 환경·적은 리소스에서 활용)
Llama의 의의 및 영향
- Llama 시리즈는 오픈소스 생태계 확산과 대형 언어 모델의 대중화를 이끌었음
- Llama-3.1 405B 공개를 기점으로 GPT-3/4급 대형 모델 다운로드/실험이 현실화
- MoE 구조 도입으로 초대형 모델의 학습·배포가 활발해짐(DeepSeek, Mixtral 등에도 영향)
- 다만, 최근 모델들은 벤치마크 최적화(annealing), 어시스턴트 성향 강화 등으로 "순수 언어 모델"로서의 특성 변화 논의가 있음

The desert – 오픈소스 대형 모델의 공백기와 변화

GPT-3 수준(1,750억 파라미터급) 이상의 대형 언어 모델을 오픈소스로 구할 수 없던 긴 공백기를 의미함
이 시기(2020~2023년 중반)는 70B 이하 llama 등 비교적 작은 모델만 공개되어 있었고,
- 일부 프로젝트에서는 작은 Llama(예: 70B) 에 GPT-3가 생성한 합성 데이터로 파인튜닝하는 방식으로 성능을 끌어올리려 시도함
- 그러나 AI가 만든 텍스트를 다시 AI가 학습에 사용하면 데이터 품질 저하(데이터 "degeneration") 문제가 발생할 수 있음
GPT-3 수준의 오픈 가중치 모델이 장기간 부재했던 이유로,
- 학습 비용(수천~수만 개 GPU 인프라), 데이터 확보, 대형 파라미터 구조의 배포 난이도 등이 복합적으로 작용
Llama-3.1 405B(4050억 dense 파라미터) 모델이 공개되면서 본격적으로 초대형 모델의 오픈소스화가 시작됨
- 그 직전(2023년 12월) Mistral의 Mixtral-8x7B(MoE 구조, 총 560억 파라미터), 2024년 4월 Mixtral-8x22B(총 1,410억, 활성 390억 파라미터) 등
  - MoE(전문가 혼합) 아키텍처를 활용해 GPT-3급 대형 모델을 비교적 적은 리소스로 훈련·배포 가능하게 만듦
MoE 구조는 여러 전문가 네트워크(Expert)를 두고, 한 번의 추론 시 일부만 활성화
- 이를 통해 dense 구조보다 적은 리소스(메모리·연산)로 대형 모델 운영이 가능함
- GPU 대수와 메모리 한계로 인해, MoE는 대형 오픈모델 대중화에 결정적 역할을 함

결론 및 전망

2024~2025년 기준, GPT-3급(1,750억) 이상 초대형 모델이 다양하게 공개되고 있음
405B(4050억)가 최신 dense base 모델이지만, 최신 MoE 모델들도 대형화·다양화 중
Dense vs MoE 성능 비교는 아직 모호, 진정한 "지능"에 필요한 구조와 크기에 대한 논의 필요
새로운 구조(RWKV, byte-latent, bitnet), 합성 데이터 활용 등도 실험되고 있으나, 순수 텍스트 엔진으로서의 본질적 발전은 여전히 과제
최근 대부분의 대형 모델이 "AI 어시스턴트" 역할로 fine-tune되는 경향, 대안적 LLM 탐구가 필요한 시점

Read Entire Article