Moebius: 0.2B 이미지 인페인팅 모델로 10B급 성능 달성

3 days ago 11
  • Moebius는 10B급 산업용 이미지 인페인팅 모델의 높은 계산 비용을 줄이기 위한 0.22B 파라미터 경량 프레임워크임
  • LλMI 블록은 Local-λ와 Interactive-λ 모듈로 공간 문맥과 전역 의미 정보를 고정 크기 선형 행렬에 압축해 계산 부담을 낮춤
  • 학습은 적응형 다중 세분도 증류를 사용해 잠재 공간에서 중간 특징과 확산 궤적을 정렬하고, 손실 가중치를 gradient norm 기반으로 조정함
  • 0.22B 파라미터로 FLUX.1-Fill-Dev 11.9B의 2% 미만 규모지만, Places2·CelebA-HQ·FFHQ 등 6개 벤치마크에서 FLUX.1-Fill-Dev 및 SD3.5 Large-Inpainting과 동급이거나 일부 상황에서 더 나은 품질을 보임
  • 단일 GPU 기준 26.01ms/step 지연시간과 10B급 모델 대비 15배 이상 빠른 전체 추론 시간으로, 특정 작업에 맞춘 경량 모델도 고품질 인페인팅에 실용적일 수 있음을 보임

10B급 품질을 겨냥한 경량 인페인팅

  • Moebius는 이미지 인페인팅에서 10B급 일반 모델의 계산 비용이 실제 배포를 어렵게 만든다는 문제에서 출발함
  • 모델 규모는 0.22B(226M) 파라미터로, 비교 대상인 FLUX.1-Fill-Dev의 11.9B 파라미터 대비 2% 미만임
  • 추론은 단일 GPU에서 26.01ms/step 수준이며, 최적화된 샘플링 스텝과 결합해 10B급 모델 대비 전체 실행 시간이 15배 이상 빠름
  • 품질 평가는 자연 장면과 인물 장면을 모두 포함함
    • 자연 장면: Places2
    • 인물 장면: CelebA-HQ, FFHQ
  • 6개 벤치마크에서 FLUX.1-Fill-Dev, SD3.5 Large-Inpainting 같은 10B급 최신 일반 모델과 동급 성능을 보이거나, 복잡한 텍스처와 얼굴 개연성 같은 일부 상황에서 더 나은 결과를 냄
  • 프로젝트 페이지에는 자연 장면과 인물 장면의 시각화, Places2 및 CelebA-HQ·FFHQ 비교 결과가 포함됨

구조와 증류 전략

  • 전체 파이프라인은 Latent Diffusion Model(LDM) 프레임워크와 Latent Categories Guidance(LCG)를 사용함
  • 노이즈 제거 U-Net은 제안된 LλMI 블록으로 재구성됨
    • LλMI는 Local-λ와 Interactive-λ 모듈로 구성됨
    • 자기 어텐션과 교차 어텐션을 공간 문맥 및 전역 의미 사전 정보를 고정 크기 선형 행렬로 압축하는 방식으로 재정식화함
    • 이 방식은 복잡한 잠재 상호작용을 유지하면서 이차 계산 오버헤드를 피하는 데 초점을 둠
  • 학습에는 적응형 다중 세분도 증류 전략이 적용됨
    • 교사 모델은 PixelHacker
    • 증류는 픽셀 공간이 아니라 잠재 공간 안에서만 수행돼 비용이 큰 픽셀 공간 디코딩을 피함
    • 미시적인 중간 특징부터 거시적인 확산 궤적까지 여러 세분도의 감독 신호를 정렬함
    • gradient norm 기반 적응형 손실 가중치로 학습 중 여러 손실의 균형을 동적으로 맞춤
  • 구조 압축으로 생기는 표현 병목은 LλMI 블록과 다중 세분도 증류의 결합으로 완화함
  • Moebius는 모델 크기를 키우기보다 명확한 작업에 맞춘 특화 모델로 고품질 이미지 인페인팅과 AI 객체 제거를 겨냥함
Read Entire Article