Moebius: 0.2B 이미지 인페인팅 모델로 10B급 성능 달성

3 days ago 11

Moebius는 10B급 산업용 이미지 인페인팅 모델의 높은 계산 비용을 줄이기 위한 0.22B 파라미터 경량 프레임워크임
LλMI 블록은 Local-λ와 Interactive-λ 모듈로 공간 문맥과 전역 의미 정보를 고정 크기 선형 행렬에 압축해 계산 부담을 낮춤
학습은 적응형 다중 세분도 증류를 사용해 잠재 공간에서 중간 특징과 확산 궤적을 정렬하고, 손실 가중치를 gradient norm 기반으로 조정함
0.22B 파라미터로 FLUX.1-Fill-Dev 11.9B의 2% 미만 규모지만, Places2·CelebA-HQ·FFHQ 등 6개 벤치마크에서 FLUX.1-Fill-Dev 및 SD3.5 Large-Inpainting과 동급이거나 일부 상황에서 더 나은 품질을 보임
단일 GPU 기준 26.01ms/step 지연시간과 10B급 모델 대비 15배 이상 빠른 전체 추론 시간으로, 특정 작업에 맞춘 경량 모델도 고품질 인페인팅에 실용적일 수 있음을 보임

10B급 품질을 겨냥한 경량 인페인팅

Moebius는 이미지 인페인팅에서 10B급 일반 모델의 계산 비용이 실제 배포를 어렵게 만든다는 문제에서 출발함
모델 규모는 0.22B(226M) 파라미터로, 비교 대상인 FLUX.1-Fill-Dev의 11.9B 파라미터 대비 2% 미만임
추론은 단일 GPU에서 26.01ms/step 수준이며, 최적화된 샘플링 스텝과 결합해 10B급 모델 대비 전체 실행 시간이 15배 이상 빠름
품질 평가는 자연 장면과 인물 장면을 모두 포함함
- 자연 장면: Places2
- 인물 장면: CelebA-HQ, FFHQ
6개 벤치마크에서 FLUX.1-Fill-Dev, SD3.5 Large-Inpainting 같은 10B급 최신 일반 모델과 동급 성능을 보이거나, 복잡한 텍스처와 얼굴 개연성 같은 일부 상황에서 더 나은 결과를 냄
프로젝트 페이지에는 자연 장면과 인물 장면의 시각화, Places2 및 CelebA-HQ·FFHQ 비교 결과가 포함됨

구조와 증류 전략

전체 파이프라인은 Latent Diffusion Model(LDM) 프레임워크와 Latent Categories Guidance(LCG)를 사용함
노이즈 제거 U-Net은 제안된 LλMI 블록으로 재구성됨
- LλMI는 Local-λ와 Interactive-λ 모듈로 구성됨
- 자기 어텐션과 교차 어텐션을 공간 문맥 및 전역 의미 사전 정보를 고정 크기 선형 행렬로 압축하는 방식으로 재정식화함
- 이 방식은 복잡한 잠재 상호작용을 유지하면서 이차 계산 오버헤드를 피하는 데 초점을 둠
학습에는 적응형 다중 세분도 증류 전략이 적용됨
- 교사 모델은 PixelHacker임
- 증류는 픽셀 공간이 아니라 잠재 공간 안에서만 수행돼 비용이 큰 픽셀 공간 디코딩을 피함
- 미시적인 중간 특징부터 거시적인 확산 궤적까지 여러 세분도의 감독 신호를 정렬함
- gradient norm 기반 적응형 손실 가중치로 학습 중 여러 손실의 균형을 동적으로 맞춤
구조 압축으로 생기는 표현 병목은 LλMI 블록과 다중 세분도 증류의 결합으로 완화함
Moebius는 모델 크기를 키우기보다 명확한 작업에 맞춘 특화 모델로 고품질 이미지 인페인팅과 AI 객체 제거를 겨냥함

Read Entire Article