Ask GN: 소형 모델(Gemma 3 270M/1B)의 도메인 지식 주입 한계와 파인튜닝 전략에 대한 조언부탁드립니다.

4 weeks ago 19

최근 Gemma 3 소형 모델들을 활용해 영화 추천 도메인으로 SFT 및 LoRA 파인튜닝을 진행해 보았습니다. 실험 과정에서 소형 모델(SLM)의 지식 습득 능력에 대해 몇 가지 한계를 느껴 질문을 올립니다.

[실험]

  • 사용 모델: gemma-3-270m-it, gemma-3-1b-it
  • 학습 방법: LoRA 및 SFT
  • 실험 결과: 1B 모델은 기존 지식을 바탕으로 어느 정도 추론이 가능했으나, 270M 모델은 파라미터 수의 한계로 인해 새로운 도메인 지식을 수용하는 '그릇' 자체가 부족하다는 인상을 받았습니다.

전체적인 튜닝과정은 아래 블로그에 여러 포스팅으로 기록을 남겼습니다.
https://seungsang.tistory.com/entry/…


[직면한 문제]

  • LoRA의 용량 한계: 학습 파라미터가 전체의 1% 내외이다 보니, 단순 태스크 적응(Task Adaptation)을 넘어선 지식 주입(Knowledge Injection)에는 한계가 있었습니다.
  • 전체 튜닝(Full Fine-tuning)의 고민: 모델의 전체 가중치를 업데이트할 경우 지식 주입은 유리하나, 기존에 가진 범용적인 추능 능력(Reasoning)이 상실될 것이라고 생각됩니다. 이를 방지하기 위한 Replay 데이터를 섞고 싶어도 베이스 모델의 학습 데이터가 공개되지 않아 어려운 상황입니다.

영화의 경우에는 이미 모델이 지식을 가지고 있어서 파인튜닝이 가능했다고 생각합니다.
근데, 제가 특정 도메인을 기반으로 하고 싶다면 어떻게 해야할까요?
소형 모델을 특정 도메인에 특화시키고 싶을 때, 부족한 파라미터 용량을 극복하고 효과적으로 도메인 지식을 주입할 수 있는 전략이 무엇이 있을까요?

많은 조언부탁드립니다. CPT(Continue Pre-training) 등 다양한 경험을 공유해주시면 감사합니다.

Read Entire Article