상호작용 모델

2 hours ago 1

Thinking Machines Lab은 외부 하네스가 아니라 모델이 실시간 협업을 직접 처리하는 Interaction Model 연구 프리뷰를 공개함
모델은 오디오·비디오·텍스트를 지속적으로 받아들이고, 200ms 마이크로 턴으로 지각과 응답을 동시에 처리함
시스템은 실시간 대화를 맡는 Interaction Model과 장기 추론·도구 사용을 맡는 Background Model이 문맥을 공유하는 구조임
TML-Interaction-Small은 FD-bench V1.5 77.8점, 턴테이킹 지연 0.40초를 기록했지만 일부 비디오 정확도는 제한적임
현재 모델은 276B 파라미터 MoE이며 활성 파라미터는 12B이고, 제한적 연구 프리뷰 뒤 올해 후반 더 넓게 공개될 예정임

협업 병목과 Interaction Model의 목표

Thinking Machines Lab은 외부 하네스(harness)가 아니라 모델 자체가 상호작용을 처리하는 Interaction Model 연구 프리뷰를 발표함
목표는 AI의 지능뿐 아니라 상호작용성도 함께 확장되게 만드는 것이며, 모델이 오디오·비디오·텍스트를 지속적으로 받아들이고 실시간으로 생각·응답·행동하는 방식임
현재 많은 AI 연구와 인터페이스는 AI가 자율적으로 오래 작업하는 능력을 중시하지만, 사람이 계속 개입하는 hands-on-keyboard 작업에서는 모델이 너무 느리게 느껴져 가치가 덜 드러날 수 있음
실제 업무에서는 요구사항을 처음부터 완전히 지정하고 떠나는 방식이 어렵고, 사람이 중간에 명확화와 피드백을 제공하는 협업 과정이 좋은 결과에 도움을 줌
기존 턴 기반 모델은 사용자가 입력을 끝낼 때까지 기다리고, 모델이 생성하는 동안에는 새 정보를 받지 못해 단일 스레드처럼 현실을 경험함
이 구조는 사용자의 지식·의도·판단이 모델에 전달되는 폭과, 사람이 모델의 작업을 이해하는 폭을 좁힘
Thinking Machines Lab은 모든 모달리티의 실시간 상호작용이 가능해야 이 병목을 해결할 수 있으며, 사람이 AI 인터페이스에 맞추는 대신 AI가 사람의 방식에 맞춰야 한다고 봄
대부분의 기존 AI 모델은 끊김, 멀티모달, 동시성을 흉내 내기 위해 여러 컴포넌트를 붙이는 하네스를 사용하지만, The Bitter Lesson에 따르면 수작업 시스템은 일반 능력의 확장에 밀릴 수 있음
상호작용성이 지능과 함께 확장되려면 모델 내부 기능이어야 하며, 모델을 키우면 더 똑똑해질 뿐 아니라 더 나은 협업자가 되어야 함

모델 내부 상호작용이 여는 기능

자연스러운 대화 관리
- 모델은 화자가 생각 중인지, 발화를 넘기는지, 스스로 고치는지, 응답을 유도하는지 암묵적으로 추적함
- 별도의 대화 관리 컴포넌트 없이 이런 판단을 처리함
음성·시각 기반 개입
- 모델은 사용자가 말을 끝냈을 때만 반응하지 않고, 문맥에 따라 필요한 순간에 끼어들 수 있음
- 사용자가 틀린 말을 할 때 끊거나, 코드에 버그를 썼을 때 시각 단서를 보고 알려주는 방식이 가능함
동시 발화
- 사용자와 모델이 동시에 말할 수 있으며, 실시간 번역 같은 상황에서 유용함
시간 인식
- 모델은 경과 시간을 직접 인식하며, 특정 시간 간격에 맞춰 말하거나 사용자의 행동 시간을 측정하는 과제를 다룰 수 있음
도구 호출·검색·생성 UI 동시 실행
- 모델은 사용자와 말하고 듣는 동안 동시에 검색, 웹 브라우징, UI 생성을 수행할 수 있음
- 결과가 준비되면 대화 흐름에 맞춰 다시 엮어 넣음
- 긴 실제 세션에서는 이런 기능이 계속 함께 일어나며, 프롬프트를 보내는 느낌보다 협업하는 느낌에 가까워짐

접근 방식

시간 정렬 마이크로 턴
- Interaction Model은 연속 입력·출력 스트림을 마이크로 턴으로 나누고, 시간을 기준으로 상호작용을 구성함
- 턴 기반 모델은 교대로 이어지는 토큰 시퀀스를 보지만, 시간 인식 Interaction Model은 연속 마이크로 턴 스트림을 보므로 침묵, 겹침, 끼어들기가 모델 문맥에 남음
- 모델은 사용자와 지속적인 양방향 교환 상태를 유지하며, 지각과 응답을 동시에 수행함
- 로보틱스와 자율주행은 물리 세계의 요구 때문에 실시간 동작을 전제로 하며, Moshi, PersonaPlex, nemotron-voicechat, Seeduplex 같은 오디오 풀듀플렉스 모델도 양방향·연속 상호작용의 예임
시스템 구성
- 시스템은 실시간 존재감을 유지하는 시간 인식 Interaction Model과, 지속적 추론·도구 사용·장기 작업을 맡는 비동기 Background Model로 구성됨
- 더 깊은 추론이 즉시 생성될 수 없을 때 Interaction Model이 Background Model에 위임함
- 위임 중에도 Interaction Model은 계속 사용자 앞에 남아 후속 질문에 답하고, 새 입력을 받고, 대화 맥락을 유지함
- Background Model의 결과는 생성되는 대로 스트리밍되며, Interaction Model이 사용자의 현재 행동에 맞는 순간에 대화에 통합함
- 두 시스템은 문맥을 공유하며, 사용자는 비추론 모델 수준의 응답 지연 안에서 추론 모델의 계획, 도구 사용, 에이전트 워크플로를 함께 활용할 수 있음
- Background Model과 Interaction Model은 모두 지능을 갖추며, Interaction Model 단독으로도 상호작용 및 지능 벤치마크에서 경쟁력 있는 성능을 냄
Interaction Model 구조
- 설계의 출발점은 본질적으로 실시간인 연속 오디오와 비디오이며, 텍스트는 기다릴 수 있지만 실시간 대화는 기다릴 수 없음
- 모델은 텍스트, 오디오, 비디오의 임의 부분집합을 입력으로 받고 텍스트와 오디오를 예측함
- 200ms 분량의 입력 처리와 200ms 분량의 출력 생성을 계속 교차시키는 마이크로 턴으로 동작함
- 완성된 사용자 턴을 소비하고 완성된 응답을 생성하는 대신, 입력 토큰과 출력 토큰을 모두 스트림으로 처리함
- 이 방식은 여러 입력·출력 모달리티의 거의 실시간 동시성을 가능하게 하며, 모델이 지켜야 하는 인공적 턴 경계를 없앰
- 기존 실시간 시스템 다수는 턴 기반 모델을 실시간처럼 보이게 하려고 음성 활동 감지(VAD) 같은 하네스로 턴 경계를 예측함
- 이런 하네스 컴포넌트는 모델 자체보다 지능이 낮아, 능동적 끼어들기나 시각 단서 반응 같은 상호작용 모드를 제한함
- Interaction Model에서는 이런 상호작용 모드가 특수 하네스가 아니라 모델이 수행할 수 있는 특수 사례가 되고, 모델 크기와 훈련 데이터 확장에 따라 품질이 개선될 수 있음
인코더 없는 조기 융합
- 오디오와 비디오를 큰 독립 인코더로 처리하는 대신 최소 전처리를 사용하는 구조를 선택함
- 많은 옴니모달 모델은 Whisper 유사 인코더나 TTS 유사 디코더를 별도로 훈련해야 하지만, 이 모델은 오디오 신호를 dMel 형태로 받아 가벼운 임베딩 레이어로 변환함
- dMel은 Bai, et al. 2024를 따름
- 이미지는 40x40 패치로 나눈 뒤 hMLP로 인코딩함
- 오디오 디코더에는 flow head를 사용함
- 모든 컴포넌트는 트랜스포머와 함께 처음부터 공동 훈련됨
추론 최적화
- 추론 시 200ms 청크는 작은 크기의 prefill과 decode가 자주 필요하고, 각 단계가 엄격한 지연 조건을 만족해야 함
- 기존 LLM 추론 라이브러리는 작은 prefill이 빈번한 상황에 최적화되어 있지 않아 턴마다 오버헤드가 큼
- 이를 위해 streaming session을 구현해, 클라이언트가 각 200ms 청크를 별도 요청으로 보내면 추론 서버가 GPU 메모리의 지속 시퀀스에 청크를 이어 붙임
- 이 방식은 잦은 메모리 재할당과 메타데이터 계산을 피하며, 해당 기능의 한 버전을 SGLang에 upstream함
- 양방향 서빙에서 나타나는 shape와 지연을 기준으로 커널도 최적화함
- MoE 커널에는 표준 grouped gemm 대신 PyTorch와 Cursor의 선행 작업처럼 gather+gemv 전략을 사용함
Trainer-Sampler 정렬
- 비트 단위 trainer-sampler alignment가 훈련 안정성과 시스템 컴포넌트 디버깅에 유용했음
- batch-invariant kernels를 구현했으며, 전체 성능 오버헤드는 5% 미만임
- All-reduce와 reduce-scatter에는 NVLS를 사용해 Blackwell에서 결정적인 저지연 통신 커널을 구현함
- 이 커널은 Sequence Parallelism과 Tensor Parallelism처럼 서로 다른 병렬화 전략 사이에서도 비트 단위 정렬을 달성함
- Attention의 주요 과제는 Split-KV이며, 일반적으로 decode와 prefill 사이 누적 순서 불일치를 만들 수 있음
- decode와 prefill 사이에서 일관되게 split을 선택하면 누적 순서를 유지할 수 있으며, 예시로 SM을 4096 토큰 단위로 left-aligned 처리해 prefill과 decode 양쪽에서 효율을 얻을 수 있음
두 모델의 조율
- Interaction Model이 위임할 때는 독립 쿼리가 아니라 전체 대화를 포함한 풍부한 문맥 패키지를 보냄
- Background Model의 결과는 생성되는 대로 돌아오며, Interaction Model이 갑작스러운 문맥 전환이 아니라 사용자 현재 행동에 맞는 순간에 이를 대화에 엮음
안전성
- 실시간 상호작용은 턴 기반 교환과 다른 방식으로 안전성을 압박하므로, 작업은 모달리티에 맞는 거절과 장기 대화 견고성에 집중됨
- 음성 거절이 구어체로 자연스럽게 들리도록 TTS 모델로 허용되지 않는 주제 범위의 거절 및 과잉 거절 훈련 데이터를 생성함
- 거절 경계는 자연스러운 표현을 선호하되 단호함을 낮추지 않도록 보정됨
- 긴 speech-to-speech 대화에서 견고성을 높이기 위해 자동 레드팀 하네스로 다중 턴 거절 데이터를 생성함
- 텍스트 기반 거절과의 행동 유사성도 가깝게 유지함

벤치마크와 평가

지능과 상호작용성
- 모델 이름은 TML-Interaction-Small이며, 강한 지능·지시 따르기와 상호작용성을 함께 갖춘 첫 모델로 제시됨
- 상호작용 품질은 FD-bench로 측정함
- FD-bench v1.5는 사전 녹음된 오디오가 주어졌을 때 모델이 특정 시점에 응답해야 하며, 사용자 끼어들기, 맞장구, 다른 사람과의 대화, 배경 발화 상황에서 모델 행동을 측정함
- 지능은 지능과 지시 따르기를 추적하는 일반 벤치마크인 Audio MultiChallenge로 측정함
- TML-Interaction-Small은 FD-bench V1 턴테이킹 지연에서 0.40초를 기록해 표에 있는 비교 모델보다 낮은 지연을 보임
- FD-bench V1.5 평균 점수는 77.8로, 비교 대상인 GPT-realtime-2.0, GPT-realtime-1.5, Gemini-3.1-flash-live, Qwen 3.5 OMNI-plus-realtime보다 높음
- FD-bench V3 Audio+Tools에서는 Background Agent 활성화 기준 응답 품질 82.8% / Pass@1 68.0% 를 기록함
- QIVD Video+Audio 정확도는 54.0% 로, 일부 비교 모델보다 낮거나 비슷함
- Audio MultiChallenge APR은 43.4% 이며, GPT-realtime-2.0 xhigh의 48.5%보다는 낮지만 instant 모델들보다 높음
- BigBench Audio는 Background Agent 활성화 기준 75.7 / 96.5로 보고됨
- IFEval은 VoiceBench Audio에서 82.1%, Text에서 89.7% 를 기록함
- Harmbench 텍스트 거절률은 99.0% 임
기존 평가가 포착하지 못하는 상호작용 차원
- 기존 상호작용 벤치마크는 모델에서 관찰되는 질적 도약을 충분히 포착하지 못해, 시간 인식, 동시 발화, 시각 능동성을 재는 내부·개조 평가가 추가됨
시간 인식과 동시 발화
- 턴 기반 모델과 대화 관리 시스템은 정확한 시간 추정이나 동시 발화를 지원하지 않음
- 예시 과제는 “1마일을 달리는 데 얼마나 걸렸나”, “내 발음을 듣는 즉시 고쳐 달라”, “이 함수를 쓰는 데 얼마나 걸렸나” 같은 형태임
- TimeSpeak은 모델이 사용자가 지정한 시간에 맞춰 말하기를 시작하고 올바른 내용을 말할 수 있는지 테스트함
- 예시는 “호흡 연습을 하고 싶으니 멈추라고 할 때까지 4초마다 들이쉬고 내쉬라고 알려 달라”임
- CueSpeak은 적절한 순간에 의미적으로 올바른 응답을 말하는지 테스트함
- 데이터는 전체 점수를 얻기 위해 모델이 사용자와 동시에 말해야 하도록 구성됨
- 예시는 “내가 코드스위칭해서 다른 언어를 쓸 때마다 원래 언어의 올바른 단어를 말해 달라”임
- 두 벤치마크는 각 예제마다 기대 의미 응답과 시간 창을 하나씩 가지며, LLM judge가 의미와 타이밍을 모두 만족할 때만 정답으로 채점함
시각 능동성
- 현재 상용 실시간 API는 주로 오디오 기반 대화 관리 하네스로 턴을 감지하며, 시각 세계가 바뀌었을 때 스스로 말할 시점을 선택하지 못함
- StreamBridge, Streamo, StreamingVLM, MMDuet2는 스트리밍 비디오 입력에서 언제 텍스트를 출력할지 다룸
- 이런 텍스트 출력 연구는 발화에 지속 시간이 있고, 사용자와 겹칠 수 있으며, 턴테이킹·끼어들기·맞장구와 조율되어야 하는 음성 출력 상호작용의 제약을 다루지 않음
- AURA는 VideoLLM이 텍스트를 내보내거나 침묵할 시점을 결정하는 구조에 ASR/TTS 데모를 붙인 형태이며, Thinking Machines Lab의 모델은 speech-native이고 full-duplex라는 차이가 있음
시각 능동성 평가
- RepCount-A는 반복 동작 비디오를 온라인 카운팅 과제로 개조함
- 모델에는 “{action} 반복 횟수를 세어 달라”는 오디오 지시와 비디오가 스트리밍되며, 정답의 끝에서 두 번째 반복 이후 모델이 말한 마지막 숫자가 정답에서 1회 이내인지로 채점함
- 이 과제는 연속 시각 추적과 제때 세기를 측정함
- ProactiveVideoQA는 특정 순간에 답을 알 수 있게 되는 질문이 포함된 비디오로 구성됨
- 질문을 오디오로 스트리밍한 뒤 비디오를 보내며, 자막이 있으면 비디오에 태우고 입력 비디오는 음소거해 시각 능동성을 강조함
- 평가는 논문의 turn-weighted PAUC@ω=0.5 지표를 0~100으로 스케일해 턴과 카테고리 평균을 내며, 계속 침묵하면 25.0점을 받음
- 높은 점수에는 올바른 답을 올바른 시점에 말하는 것이 필요하고, 틀린 답은 페널티를 받음
- Charades는 표준 시간적 행동 위치 추정 벤치마크로, 각 비디오는 라벨링된 시간 구간에서 발생하는 행동을 포함함
- 모델은 “사람이 {action}을 시작하면 ‘start’라고 말하고 멈추면 ‘Stop’이라고 말하라”는 오디오 지시와 비디오 스트림을 받으며, 예측 구간과 참조 구간의 temporal IoU로 채점됨
현재 모델들의 한계
- 기존 모델은 이런 시간 인식, 동시 발화, 시각 능동성 과제를 의미 있게 수행하지 못함
- 완전성을 위해 GPT Realtime-2 minimal 결과가 보고되지만, thinking high 모델을 포함한 모든 평가 모델은 비슷하거나 더 나쁘며 침묵하거나 잘못된 답을 냄
- 상호작용성은 향후 중요한 연구 분야로 보고 있으며, Interaction Model과 인간-AI 협업 평가 프레임워크 등을 위한 연구 보조금 계획이 예고됨

한계와 공개 계획

긴 세션
- 연속 오디오와 비디오는 문맥을 빠르게 누적함
- streaming-session 설계는 짧고 중간 길이의 상호작용을 잘 처리하지만, 매우 긴 세션에는 신중한 문맥 관리가 필요함
컴퓨트와 배포
- 낮은 지연으로 오디오와 비디오를 스트리밍하려면 안정적인 연결이 필요함
- 좋은 연결이 없으면 경험이 크게 악화됨
- 시스템 신뢰성을 높이고 지연된 프레임에 더 견고하도록 모델을 훈련하면 개선 여지가 있음
정렬과 안전
- 실시간 인터페이스는 정렬과 안전성 모두에 새로운 연구 영역을 열며, 피드백 수집과 연구 보조금 검토가 진행 중임
모델 크기 확장
- 현재 TML-Interaction-Small은 276B 파라미터 MoE이며, 활성 파라미터는 12B임
- 모델 스케일이 커지면 상호작용성도 개선될 것으로 기대하지만, 더 큰 사전훈련 모델은 현재 이 설정에서 서빙하기에 너무 느림
- 더 큰 모델은 올해 후반 공개할 계획임
Background Agent 개선
- 주요 초점은 실시간 상호작용성이지만, 에이전트 지능도 필수 역량임
- 에이전트 지능을 프런티어 수준으로 끌어올리는 것 외에도, Background Agent가 Interaction Model과 함께 일하는 방식은 아직 초기 단계임
공개 일정
- 향후 몇 달 안에 피드백 수집을 위한 제한적 연구 프리뷰를 열고, 올해 후반 더 넓게 공개할 예정임
- 채용 링크는 join us이며, 의견은 interaction@thinkingmachines.ai로 받을 예정임