Suno, Udio, MusicGen, Stable Audio 등 모든 상용 AI 음악 생성기는 피할 수 없는
물리적 제약을 공유합니다. 생성된 오디오가 반드시 Residual Vector Quantization
(RVQ)을 통과해야 한다는 점입니다.
RVQ는 연속적인 오디오 표현을 이산 코드북 벡터에 매핑합니다. 이 과정에서
발생하는 양자화 갭은 비가역적입니다. 인간 음악으로만 훈련된 음원 분리 모델이
AI 생성 오디오를 처리할 때, 이 갭이 비정상적으로 크고 구조화된 재구성 잔차로
나타납니다. 이것이 포렌식 신호입니다.
기존 탐지기(CLAM, SpecTTTra)는 학습 분포 내에서는 잘 작동하지만 새로운
생성기에서 무너집니다. ArtifactNet은 AI 음악이 어떻게 들리는지가 아니라
왜 물리적으로 다른지를 탐지합니다.
파이프라인 (총 4.0M 파라미터):
-
ArtifactUNet (3.6M) — STFT magnitude에 [0, 0.5]로 제한된 곱셈 마스크를
예측하는 bounded-mask UNet. Demucs v4 잔차를 교사로 2단계 지식 증류 학습. -
7채널 HPSS 포렌식 피처 — 잔차를 조화음/타악음 성분으로 분해 후
시간 미분, 스펙트럴 플럭스와 결합. -
경량 CNN (0.4M) — 4초 세그먼트 처리, 곡 단위 중앙값 판정.
물리적 증거: 음원 분리 잔차의 유효 대역폭 측정 (n=94):
- 인간 음악: 평균 1,996 Hz
- AI 평균 (22개 생성기): 291 Hz
- Suno v3.5: 170 Hz / Riffusion: 219 Hz / MusicGen: 255 Hz
아키텍처와 무관하게 모든 AI 생성기가 200 Hz 부근에 집중됩니다.
ArtifactBench 결과 (6,183트랙, 22개 생성기, 학습-테스트 중복 없음):
| ArtifactNet | 4M | 0.983 | 1.5% |
| CLAM | 194M | 0.758 | 69.3% |
| SpecTTTra | 19M | 0.771 | 19.4% |
CLAM은 실제 음악을 AI로 오탐하는 비율이 69.3%로, 판별기로서 사실상
무의미한 수준입니다. SONICS/MoM 벤치마크는 real 세트를 YouTube ID로만
배포하는데, 상당수가 삭제/비공개 처리되어 원본 기준 F1 비교가 불가능합니다.
ArtifactBench는 직접 수집·검증한 real 파티션으로 세 모델을 동일 조건에서
비교합니다.
한계: 44.1kHz 입력 필요; 저비트레이트 MP3에서 FPR ~8%;
단일 패스 Demucs 세탁 공격 시 TPR 94%로 감소; 최신 Udio TPR = 87%.
데모 (~5초): https://demo.intrect.io/
논문: https://arxiv.org/abs/2604.16254
모델 + 벤치마크 (CC BY-NC 4.0): https://huggingface.co/intrect/artifactnet
특허 출원 중 (KR + PCT)

3 hours ago
2








English (US) ·