화웨이, Ascend GPU에서 학습된 오픈 웨이트 모델 공개

11 hours ago 3

  • Pangu Pro MoE는 화웨이 Ascend NPU 환경에 최적화된 Mixture of Grouped Experts(MoGE) 아키텍처를 도입하여, 분산 환경에서 전문가별 부하 불균형 문제를 효과적으로 해결함
  • 이 모델은 총 720억 매개변수 규모로 설계되며, 토큰별 160억 개 파라미터만 활성화해 계산 효율성과 확장성을 대폭 높임
  • MoGE 아키텍처는 서로 다른 전문가 그룹별로 균등 분배 및 선택 규칙을 적용해 모든 디바이스에 완벽한 부하 균형을 달성, 추론 및 학습 속도 개선
  • 성능 평가 결과, Pangu Pro MoE는 GLM-Z1-32B, Qwen3-32B 등 주요 오픈소스 모델을 앞지르며, Ascend 300I Duo/800I A2 플랫폼에서 최고 수준 추론 효율 및 비용 대비 성능을 보임
  • 사전학습과 미세조정, 강화학습 등을 통해 고품질 데이터셋 기반의 다양한 도메인에 대한 강한 추론 및 일반화 능력을 확보함

개요

  • 최근 대규모 언어 모델(LLM)에서 Mixture of Experts(MoE) 방식이 채택되며, 계산 비용 상승 없이 모델 파라미터와 학습 용량을 높이는 트렌드가 대두됨
  • MoE 구조는 각 입력 토큰마다 일부 전문가(Expert)만 활성화하여 연산을 줄이지만, 현실적으로 몇몇 전문가만 반복적으로 선택되는 전문가 부하 불균형 현상이 존재함
  • 이러한 문제는 모델이 여러 디바이스에 분산됐을 때 전체 시스템 효율성을 떨어뜨림
  • 기존의 부하 균형 휴리스틱 기법은 부분 개선에 그치며, 완전한 근본적 해결책은 아님

Mixture of Grouped Experts(MoGE) 아키텍처 소개

  • MoGE는 전문가(Expert)를 동일 크기의 그룹(Group)으로 나누고, 토큰별로 각 그룹에서 지정된 수의 전문가만을 반드시 활성화하는 그룹 균형 라우팅 전략을 구현함
  • 이를 통해 모든 디바이스에 고르게 작업이 분배되며, Imbalance Score(IS)가 0으로 설계상 항상 완벽한 로드 균형을 달성함
  • 각 토큰에 대해 모든 전문가의 초기 점수를 글로벌 Softmax 라우터로 산출한 뒤, 각 그룹별로 Top-K′ 전문가만 선택, 미선택 전문가의 점수는 0이 됨
  • 이런 구조는 특히 분산 환경의 대규모 모델(수십~백억 파라미터) 에서 추론 및 학습 속도와 자원 활용도를 극대화함

Pangu Pro MoE 모델 및 Ascend 플랫폼 최적화

  • 화웨이는 Ascend 300I Duo, 800I A2 NPU 플랫폼에 최적화된 Pangu Pro MoE(총 719억 파라미터, 토큰별 165억 활성화) 를 개발
  • extensive한 시스템 시뮬레이션을 바탕으로, 모델 구조 및 하드웨어(HW) 병렬화 구성(텐서/전문가/파이프라인/가상 파이프라인 병렬성) 등 각종 하드웨어 파라미터를 조정해 성능을 극대화함
  • 커스텀 연산 커널(MulAttention, SwiftGMM 등)은 Ascend 특성에 맞춰 최적화되어, 메모리 접근, 통신 및 연산 오버헤드를 줄이고, 오퍼레이터별 병목현상 제거 및 대역폭 활용률을 향상시킴
  • 배치 크기와 성능 최적화 시뮬레이션 결과, 제약 조건 내에서 최고의 Throughput, 최소 Latency, 최적 통신 효율 등을 보임

사전학습 및 학습 데이터 설계

데이터 구성

  • 자체 토크나이저 기반 1.3경(13조) 토큰으로 이뤄진 대규모 고품질 데이터셋을 구축, 웹, 책, 코드, STEM, 산업, 추론, 합성 데이터 등 다양한 소스에서 수집
  • 토크나이저는 도메인 균형을 중시하는 전략을 사용해 특수 도메인까지 대표성을 갖춤

학습 단계 및 전략

  • 사전학습(Pre-training) 은 세 단계(일반, 추론, annealing)로 진행, 각 단계마다 학습 대상과 데이터 커리큘럼 조정
    • 일반 단계: 다양한 분야의 일반 지식과 언어 능력 습득
    • 추론 단계: STEM·코딩·복잡 논리문제 등 복잡 추론 데이터 비중 극대화
    • annealing 단계: 고난이도 데이터와 인스트럭션 스타일 데이터로 추가 튜닝
  • 각 단계는 점차적으로 시퀀스 길이, 데이터 난이도, 배치 크기, 학습률 등을 조정해 모델의 일반화 및 특화 능력 확보

데이터 평가

  • Pangu 자체 시리즈 모델을 이용한 모델 기반 다중 도메인 평가 시스템을 운영, 데이터마다 청결도/유창성/교육적 가치/풍부성 등 주요 점수를 할당하여, 데이터 샘플링 및 선정 전략에 반영
  • 전체 188개 카테고리의 정교한 라벨링을 시행하여 데이터 분포와 특성을 관리

사전학습 환경과 최적화

  • Pangu Pro MoE는 Huawei Ascend 800T A2에서 학습 및 평가, 이 칩은 FP16 256TFlops, INT8 512TOPS 효율, 310W 초저전력으로 높은 AI 성능 및 비용효율을 달성
  • 단일 에폭 학습, AdamW 옵티마이저, 3 단계 코사인 러닝레이트 스케줄, 대형 배치 구성 등으로 튼튼한 일반화와 목표 태스크별 특화 가능

포스트 트레이닝(후속 미세조정 및 강화학습)

Supervised Fine-tuning(SFT)

  • SFT 데이터는 '추론'과 '비추론' 두 세트로 구분, 추론 비중을 3:1로 높여 수학/코드/논리 추론 등 복잡 작업에 집중
  • 2단계 점진적 최적화 전략(다양한 범위에서 간단 지시→복잡 추론으로 점차 진화)을 통해, 모델의 단계적 추론력 및 일반 언어 처리력 균형 있게 성장
  • SFT 과정 중 체크포인트 병합 전략을 더해, 다양한 단계 중간 지점의 모델을 효과적으로 통합해 견고성과 일반화 강화

강화학습(RL)

  • 보상 기반의 RL 단계는 Group Relative Policy Optimization(GRPO) 알고리듬과, 보상 신호가 없는 샘플을 무시하는 Zero-Advantage-Mask 기법을 함께 적용해 정책 탐색과 효과적 학습을 지원
  • 정확성, 선호, 보조 보상 등 다층 보상 시스템을 도입, 수학 및 코딩 작업은 자동화된 평가 체계, 오픈도메인 과제는 별도의 LLM 기반 판정자(Preference Model)로 평가
  • 커리큘럼 데이터 믹싱으로 데이터 복잡도 분포를 동적으로 조정, 모델 성장에 연속적 자극 제공

시스템 및 인프라 최적화

Ascend NPU 학습 시스템

  • 계층적·복합 병렬화(Hierarchical & Hybrid Parallelism) 전략과, EP All-to-All 통신, Adaptive Pipeline Overlap, 오퍼레이터 퓨전 등 첨단 기술을 적극 적용
  • 모델 연산 효율(MFU) 35% 향상 및 파이프라인·가상 파이프라인 병렬로 단계별 연산, 통신 부하를 완벽히 분산해 확장성과 처리량 모두 강화
  • 커스텀 커널, HBM 대역폭 활용 극대화, 불필요한 통신 및 메모리 오버헤드 삭제 등으로 모델 훈련·추론 모든 단계에서 성능을 최대치로 이끌어냄
  • Inference 시스템 역시 Attention, Expert 등 모듈별 유연한 병렬 구성(H2P 전략)과 맞춤형 연산자 최적화로 각 하드웨어 구조에 맞는 최고의 Throughput과 Latency 결과를 보임

성능 및 벤치마크

  • Pangu Pro MoE는 Ascend 환경에서 1148~1528 token/s(카드당)* 추론 성능, 동급 파라미터(Open dense 32B, 72B) 대비 압도적 결과 입증
  • Cost-to-Performance 면에서도 Ascend 300I Duo 기반에서 탁월한 효율 달성
  • 다양한 외부 벤치마크(의사결정, 논리, 코딩, 문서 이해 등)에서 GLM-Z1-32B, Qwen3-32B, Gemma3-27B 등 대형 공개모델을 초과 성능
  • 서브 100B 파라미터급에서 최고 수준 LLM임을 실험적으로 보여줌

결론 및 시사점

  • Pangu Pro MoE는 대규모 모델 분산 학습/추론에서 전문가 그룹 균형화 설계를 통해 부하 불균형 문제를 근본적으로 해결
  • Ascend 전용 플랫폼 최적화와, 데이터 품질 극대화 등 전방위적 노력으로 비용·속도·일반화 성능의 고차원적 균형을 달성한 차세대 대형 언어 모델임
  • 해당 구조와 방법론은 추후 대규모 분산 LLM 생태계 및 다양한 산업 적용에서 중요한 참고/기준이 될 것으로 기대됨

Read Entire Article