DeepSeek-V4-Flash로 LLM 조향(Steering)이 다시 흥미로워졌다

5 hours ago 2

DwarfStar 4는 llama.cpp를 DeepSeek-V4-Flash 전용으로 줄여, 로컬 모델에서 LLM 조향 을 실험하기 쉽게 만듦
조향은 “짧게 답하기” 같은 개념의 활성화 차이를 벡터로 뽑아, 추론 중 같은 층에 더해 행동을 바꾸는 방식
조향은 가중치나 활성화 접근이 필요해 로컬 실행이 전제이며, API 사용자에게는 OpenAI 같은 제공자만 가능한 영역
많은 기본 조정은 프롬프트가 더 간단하지만, 거부 제거처럼 프롬프트로 요청하기 어려운 학습된 행동 변경 가능성은 남아 있음
DeepSeek-V4-Flash와 DwarfStar 4로 오픈소스 실험이 늘 수 있으며, 실제 응용은 앞으로 6개월 안에 드러날 수 있음

DeepSeek-V4-Flash와 DwarfStar 4

DwarfStar 4는 llama.cpp를 DeepSeek-V4-Flash 실행 전용으로 줄인 프로젝트이며, 로컬 모델에서 LLM 조향을 실험하기 쉽게 만듦
DeepSeek-V4-Flash는 프런티어 모델의 낮은 수준 에이전트형 코딩과 경쟁할 만큼 충분히 좋은 로컬 모델일 가능성이 있음
조향은 모델의 가중치나 활성화에 접근해야 하므로 로컬 실행이 필요하며, DeepSeek-V4-Flash 같은 모델이 등장하면서 더 많은 엔지니어가 직접 실험할 수 있는 조건이 생김
antirez는 DwarfStar 4에 조향을 1급 기능으로 넣었지만, 현재 예제는 프롬프트로도 재현 가능한 장난감 수준의 “verbosity” 조정에 가까움
DwarfStar 4의 초기 릴리스는 8일 전에 나왔고, 조향 기능이 앞으로 어떻게 발전할지가 주목됨

조향이 작동하는 방식

조향의 기본 아이디어는 “짧게 답하기” 같은 개념을 모델 내부 상태에서 뽑아낸 뒤, 추론 중 그 개념을 이루는 수치적 활성화를 키우는 것
단순한 조향 벡터 추출
- 같은 100개 프롬프트 집합을 모델에 두 번 넣고, 한 번은 일반 프롬프트로, 다른 한 번은 “respond tersely”를 붙여 실행할 수 있음
- 각 프롬프트 쌍에서 모델의 활성화 차이를 측정하고, 한 활성화 행렬에서 다른 활성화 행렬을 빼면 조향 벡터가 됨
- 임의의 프롬프트에 대해 같은 활성화 층에 이 벡터를 더하면 모델이 더 간결하게 응답하는 효과를 기대할 수 있음
- 측정 가능한 활성화는 attention 이후, 각 층 사이 등 여러 지점에 있으며, 하나를 고르거나 여러 지점을 시도해 가장 잘 작동하는 곳을 찾을 수 있음
더 정교한 특징 추출
- 별도 모델을 학습시켜 원래 모델의 활성화에서 함께 나타나는 행동 패턴인 특징(feature) 을 추출할 수도 있음
- 추출한 특징을 개별 개념에 다시 매핑한 뒤 같은 방식으로 활성화를 키우는 접근이 가능함
- Anthropic의 sparse autoencoders는 이 원리에 가까운 방식으로 소개됨
- 이 방식은 단순한 차분 벡터보다 더 깊은 패턴을 포착할 수 있지만, 시간·연산·전문성 비용이 훨씬 큼
- 오픈 LLaMA 모델로 이런 방식을 다룬 심층 분석이 있으며, 직접 시도한 결과는 혼재된 결과에 가까웠음

조향이 흥미로운 이유

조향은 학습셋을 힘들게 구성해 모델을 “똑똑한” 분포 쪽으로 밀어붙이는 대신, 모델 내부의 “smart” 다이얼을 찾아 오른쪽 끝까지 돌리는 가능성처럼 보임
말투 조정에서도 프롬프트에 “you MUST” 같은 수식어를 붙이거나 빼는 대신, 간결함/장황함이나 성실함/속도 같은 슬라이더를 직접 움직이는 제어판을 상상할 수 있음
Golden Gate Claude는 모든 문장을 Golden Gate Bridge로 끌고 가며, 조향이 모델 행동을 얼마나 강하게 바꿀 수 있는지 보여주는 흥미롭고 불안한 예가 됨

조향이 널리 쓰이지 않은 이유

조향은 AI 연구에서 일종의 “중산층” 아이디어처럼 위치해 있어, 대형 AI 연구소와 일반 사용자 모두에게 애매하게 맞지 않음
대형 연구소에는 덜 필요함
- 대형 AI 연구소는 추론 중 어색한 “뇌수술”을 하지 않아도 모델을 직접 조작할 수 있음
- Anthropic은 이 영역을 다루지만, 주로 해석 가능성과 안전성 관점에서 접근함
- 대형 연구소가 특정 행동을 원할 때는 보통 조향보다 모델을 학습시키는 쪽을 택함
일반 사용자는 접근 권한이 없음
- API로 LLM을 쓰는 일반 사용자는 모델 가중치나 활성화에 접근할 수 없어 조향에 필요한 정보를 얻기 어려움
- 예를 들어 GPT-5.5의 조향 벡터를 식별하거나 노출할 수 있는 쪽은 OpenAI뿐
- 오픈 가중치 모델에서는 가능하지만, 최근까지는 조향을 시도할 만큼 충분히 강한 오픈 모델이 없었다는 평가가 있음
많은 기본 용도는 프롬프트가 더 효율적임
- 모델의 “뇌”를 직접 조작한다는 표현은 인상적이지만, 프롬프트 토큰도 모델의 내부 상태를 직접 바꿈
- 조향으로 활성화를 꽤 세밀하게 제어할 수 있지만, 프롬프트 문구를 바꾸는 것만으로도 매우 세밀한 제어가 가능함
- 모델을 더 장황하게 만들기 위해 조향을 쓰기보다 그냥 그렇게 요청하는 편이 훨씬 간단함

프롬프트로 어려운 대상을 조향할 수 있는가

조향이 정말 유용해지는 한 가지 가능성은 프롬프트로 요청할 수 없는 개념을 찾아 조향하는 경우
“지능”은 후보처럼 보이지만, 현재 세대 모델은 이미 그런 성격을 내장하고 있어 “you are an expert” 같은 4o 시절 프롬프팅이 더 이상 의미 있는 효과를 내기 어려움
“지능” 조향 벡터가 존재하는지는 경험적 문제지만, 그런 벡터가 존재한다는 데에는 회의적
“지능”처럼 어려운 개념을 이루는 조향 벡터는 모델 전체 가중치 집합과 거의 같은 범위에 걸쳐 있을 수 있으며, 이 경우 벡터를 찾는 문제는 결국 똑똑한 모델을 학습하는 문제로 환원됨
GPT-2의 각 층 활성화를 같은 구조의 훨씬 강한 모델 활성화로 바꾸면 더 나은 결과가 나오겠지만, 이 경우 GPT-2를 더 똑똑하게 만든 것이 아니라 사실상 더 강한 모델과 대화하는 것에 가까움
충분히 정교한 조향은 실제 모델을 대체하게 되며, 지능은 원래 모델이 아니라 조향 자체에 들어가게 됨

데이터 압축으로서의 조향

조향의 또 다른 가능성은 많은 토큰이 필요한 개념을 하나의 조향 벡터로 담아 컨텍스트 창을 절약하는 것
이는 개념을 모델의 작업 기억에서 암묵적 기억으로 옮기는 방식처럼 볼 수 있음
예를 들어 GPT-5.5가 특정 코드베이스를 빠르게 읽을 때 얻은 지식 일부가 활성화에 묻힌다면, 이를 매우 큰 조향 벡터로 꺼낼 수 있을지 생각해볼 수 있음
“내 코드베이스를 아는 상태”라는 개념도 “지능”과 비슷하게 충분히 복잡해서 전체 파인튜닝이 필요할 가능성이 높음
산업계에서 “코드베이스로 모델을 파인튜닝”한 결과도 대체로 성공적이지 않았음
다만 이런 형태의 조향이 가능할 여지는 완전히 배제되지 않음

전망과 커뮤니티 실험

조향에는 매력이 있지만, 대부분의 이득은 프롬프트로 더 효율적으로 재현될 수 있고, 더 야심적인 목표는 학습이나 파인튜닝으로 더 효율적으로 재현될 수 있다는 회의가 있음
오픈소스 커뮤니티는 아직 조향을 많이 다루지 않았지만, DeepSeek-V4-Flash와 DwarfStar 4 같은 흐름으로 상황이 바뀌기 시작할 수 있음
조향에 실제적인 응용이 있다면 앞으로 6개월 안에 드러날 가능성이 있음
DwarfStar 4 같은 모델별 도구가 부스트 가능한 특징들의 라이브러리를 포함하게 될지도 주목할 부분
인기 있는 오픈 가중치 모델이 나오면 커뮤니티가 래퍼와 양자화 버전을 빠르게 내놓듯, 모델에서 부스트 가능한 특징을 추출하려는 움직임도 생길 수 있음