DeepSeek-V4-Flash로 LLM 조향(Steering)이 다시 흥미로워졌다
5 hours ago
2
- DwarfStar 4는 llama.cpp를 DeepSeek-V4-Flash 전용으로 줄여, 로컬 모델에서 LLM 조향 을 실험하기 쉽게 만듦
- 조향은 “짧게 답하기” 같은 개념의 활성화 차이를 벡터로 뽑아, 추론 중 같은 층에 더해 행동을 바꾸는 방식
- 조향은 가중치나 활성화 접근이 필요해 로컬 실행이 전제이며, API 사용자에게는 OpenAI 같은 제공자만 가능한 영역
- 많은 기본 조정은 프롬프트가 더 간단하지만, 거부 제거처럼 프롬프트로 요청하기 어려운 학습된 행동 변경 가능성은 남아 있음
- DeepSeek-V4-Flash와 DwarfStar 4로 오픈소스 실험이 늘 수 있으며, 실제 응용은 앞으로 6개월 안에 드러날 수 있음
DeepSeek-V4-Flash와 DwarfStar 4
- DwarfStar 4는 llama.cpp를 DeepSeek-V4-Flash 실행 전용으로 줄인 프로젝트이며, 로컬 모델에서 LLM 조향을 실험하기 쉽게 만듦
- DeepSeek-V4-Flash는 프런티어 모델의 낮은 수준 에이전트형 코딩과 경쟁할 만큼 충분히 좋은 로컬 모델일 가능성이 있음
- 조향은 모델의 가중치나 활성화에 접근해야 하므로 로컬 실행이 필요하며, DeepSeek-V4-Flash 같은 모델이 등장하면서 더 많은 엔지니어가 직접 실험할 수 있는 조건이 생김
- antirez는 DwarfStar 4에 조향을 1급 기능으로 넣었지만, 현재 예제는 프롬프트로도 재현 가능한 장난감 수준의 “verbosity” 조정에 가까움
- DwarfStar 4의 초기 릴리스는 8일 전에 나왔고, 조향 기능이 앞으로 어떻게 발전할지가 주목됨
조향이 작동하는 방식
- 조향의 기본 아이디어는 “짧게 답하기” 같은 개념을 모델 내부 상태에서 뽑아낸 뒤, 추론 중 그 개념을 이루는 수치적 활성화를 키우는 것
-
단순한 조향 벡터 추출
- 같은 100개 프롬프트 집합을 모델에 두 번 넣고, 한 번은 일반 프롬프트로, 다른 한 번은 “respond tersely”를 붙여 실행할 수 있음
- 각 프롬프트 쌍에서 모델의 활성화 차이를 측정하고, 한 활성화 행렬에서 다른 활성화 행렬을 빼면 조향 벡터가 됨
- 임의의 프롬프트에 대해 같은 활성화 층에 이 벡터를 더하면 모델이 더 간결하게 응답하는 효과를 기대할 수 있음
- 측정 가능한 활성화는 attention 이후, 각 층 사이 등 여러 지점에 있으며, 하나를 고르거나 여러 지점을 시도해 가장 잘 작동하는 곳을 찾을 수 있음
-
더 정교한 특징 추출
- 별도 모델을 학습시켜 원래 모델의 활성화에서 함께 나타나는 행동 패턴인 특징(feature) 을 추출할 수도 있음
- 추출한 특징을 개별 개념에 다시 매핑한 뒤 같은 방식으로 활성화를 키우는 접근이 가능함
- Anthropic의 sparse autoencoders는 이 원리에 가까운 방식으로 소개됨
- 이 방식은 단순한 차분 벡터보다 더 깊은 패턴을 포착할 수 있지만, 시간·연산·전문성 비용이 훨씬 큼
- 오픈 LLaMA 모델로 이런 방식을 다룬 심층 분석이 있으며, 직접 시도한 결과는 혼재된 결과에 가까웠음
조향이 흥미로운 이유
- 조향은 학습셋을 힘들게 구성해 모델을 “똑똑한” 분포 쪽으로 밀어붙이는 대신, 모델 내부의 “smart” 다이얼을 찾아 오른쪽 끝까지 돌리는 가능성처럼 보임
- 말투 조정에서도 프롬프트에 “you MUST” 같은 수식어를 붙이거나 빼는 대신, 간결함/장황함이나 성실함/속도 같은 슬라이더를 직접 움직이는 제어판을 상상할 수 있음
- Golden Gate Claude는 모든 문장을 Golden Gate Bridge로 끌고 가며, 조향이 모델 행동을 얼마나 강하게 바꿀 수 있는지 보여주는 흥미롭고 불안한 예가 됨
조향이 널리 쓰이지 않은 이유
- 조향은 AI 연구에서 일종의 “중산층” 아이디어처럼 위치해 있어, 대형 AI 연구소와 일반 사용자 모두에게 애매하게 맞지 않음
-
대형 연구소에는 덜 필요함
- 대형 AI 연구소는 추론 중 어색한 “뇌수술”을 하지 않아도 모델을 직접 조작할 수 있음
- Anthropic은 이 영역을 다루지만, 주로 해석 가능성과 안전성 관점에서 접근함
- 대형 연구소가 특정 행동을 원할 때는 보통 조향보다 모델을 학습시키는 쪽을 택함
-
일반 사용자는 접근 권한이 없음
- API로 LLM을 쓰는 일반 사용자는 모델 가중치나 활성화에 접근할 수 없어 조향에 필요한 정보를 얻기 어려움
- 예를 들어 GPT-5.5의 조향 벡터를 식별하거나 노출할 수 있는 쪽은 OpenAI뿐
- 오픈 가중치 모델에서는 가능하지만, 최근까지는 조향을 시도할 만큼 충분히 강한 오픈 모델이 없었다는 평가가 있음
-
많은 기본 용도는 프롬프트가 더 효율적임
- 모델의 “뇌”를 직접 조작한다는 표현은 인상적이지만, 프롬프트 토큰도 모델의 내부 상태를 직접 바꿈
- 조향으로 활성화를 꽤 세밀하게 제어할 수 있지만, 프롬프트 문구를 바꾸는 것만으로도 매우 세밀한 제어가 가능함
- 모델을 더 장황하게 만들기 위해 조향을 쓰기보다 그냥 그렇게 요청하는 편이 훨씬 간단함
프롬프트로 어려운 대상을 조향할 수 있는가
- 조향이 정말 유용해지는 한 가지 가능성은 프롬프트로 요청할 수 없는 개념을 찾아 조향하는 경우
- “지능”은 후보처럼 보이지만, 현재 세대 모델은 이미 그런 성격을 내장하고 있어 “you are an expert” 같은 4o 시절 프롬프팅이 더 이상 의미 있는 효과를 내기 어려움
- “지능” 조향 벡터가 존재하는지는 경험적 문제지만, 그런 벡터가 존재한다는 데에는 회의적
- “지능”처럼 어려운 개념을 이루는 조향 벡터는 모델 전체 가중치 집합과 거의 같은 범위에 걸쳐 있을 수 있으며, 이 경우 벡터를 찾는 문제는 결국 똑똑한 모델을 학습하는 문제로 환원됨
- GPT-2의 각 층 활성화를 같은 구조의 훨씬 강한 모델 활성화로 바꾸면 더 나은 결과가 나오겠지만, 이 경우 GPT-2를 더 똑똑하게 만든 것이 아니라 사실상 더 강한 모델과 대화하는 것에 가까움
- 충분히 정교한 조향은 실제 모델을 대체하게 되며, 지능은 원래 모델이 아니라 조향 자체에 들어가게 됨
데이터 압축으로서의 조향
- 조향의 또 다른 가능성은 많은 토큰이 필요한 개념을 하나의 조향 벡터로 담아 컨텍스트 창을 절약하는 것
- 이는 개념을 모델의 작업 기억에서 암묵적 기억으로 옮기는 방식처럼 볼 수 있음
- 예를 들어 GPT-5.5가 특정 코드베이스를 빠르게 읽을 때 얻은 지식 일부가 활성화에 묻힌다면, 이를 매우 큰 조향 벡터로 꺼낼 수 있을지 생각해볼 수 있음
- “내 코드베이스를 아는 상태”라는 개념도 “지능”과 비슷하게 충분히 복잡해서 전체 파인튜닝이 필요할 가능성이 높음
- 산업계에서 “코드베이스로 모델을 파인튜닝”한 결과도 대체로 성공적이지 않았음
- 다만 이런 형태의 조향이 가능할 여지는 완전히 배제되지 않음
전망과 커뮤니티 실험
- 조향에는 매력이 있지만, 대부분의 이득은 프롬프트로 더 효율적으로 재현될 수 있고, 더 야심적인 목표는 학습이나 파인튜닝으로 더 효율적으로 재현될 수 있다는 회의가 있음
- 오픈소스 커뮤니티는 아직 조향을 많이 다루지 않았지만, DeepSeek-V4-Flash와 DwarfStar 4 같은 흐름으로 상황이 바뀌기 시작할 수 있음
- 조향에 실제적인 응용이 있다면 앞으로 6개월 안에 드러날 가능성이 있음
- DwarfStar 4 같은 모델별 도구가 부스트 가능한 특징들의 라이브러리를 포함하게 될지도 주목할 부분
- 인기 있는 오픈 가중치 모델이 나오면 커뮤니티가 래퍼와 양자화 버전을 빠르게 내놓듯, 모델에서 부스트 가능한 특징을 추출하려는 움직임도 생길 수 있음
추가 논의: 거부 제거와 런타임 조향
- 이후 Hacker News 댓글에서 여러 댓글러와 antirez는 조향이 프롬프트로 바꾸기 어려운 학습된 행동을 바꿀 수 있다고 봄
- 대표적인 예는 모델의 거부(refusal) 제거
- 한 댓글러에 따르면 오픈 모델에서 검열 해제나 abliteration은 이미 이런 방식으로 이뤄짐
- antirez에 따르면 가중치를 수정하면 모델 능력을 더 손상시킬 수 있는 반면, 더 가벼운 런타임 조향은 필요할 때만 적용할 수 있음
-
Homepage
-
Tech blog
- DeepSeek-V4-Flash로 LLM 조향(Steering)이 다시 흥미로워졌다