상호작용 모델

2 hours ago 1
  • Thinking Machines Lab은 외부 하네스가 아니라 모델이 실시간 협업을 직접 처리하는 Interaction Model 연구 프리뷰를 공개함
  • 모델은 오디오·비디오·텍스트를 지속적으로 받아들이고, 200ms 마이크로 턴으로 지각과 응답을 동시에 처리함
  • 시스템은 실시간 대화를 맡는 Interaction Model과 장기 추론·도구 사용을 맡는 Background Model이 문맥을 공유하는 구조임
  • TML-Interaction-Small은 FD-bench V1.5 77.8점, 턴테이킹 지연 0.40초를 기록했지만 일부 비디오 정확도는 제한적임
  • 현재 모델은 276B 파라미터 MoE이며 활성 파라미터는 12B이고, 제한적 연구 프리뷰 뒤 올해 후반 더 넓게 공개될 예정임

협업 병목과 Interaction Model의 목표

  • Thinking Machines Lab은 외부 하네스(harness)가 아니라 모델 자체가 상호작용을 처리하는 Interaction Model 연구 프리뷰를 발표함
  • 목표는 AI의 지능뿐 아니라 상호작용성도 함께 확장되게 만드는 것이며, 모델이 오디오·비디오·텍스트를 지속적으로 받아들이고 실시간으로 생각·응답·행동하는 방식임
  • 현재 많은 AI 연구와 인터페이스는 AI가 자율적으로 오래 작업하는 능력을 중시하지만, 사람이 계속 개입하는 hands-on-keyboard 작업에서는 모델이 너무 느리게 느껴져 가치가 덜 드러날 수 있음
  • 실제 업무에서는 요구사항을 처음부터 완전히 지정하고 떠나는 방식이 어렵고, 사람이 중간에 명확화와 피드백을 제공하는 협업 과정이 좋은 결과에 도움을 줌
  • 기존 턴 기반 모델은 사용자가 입력을 끝낼 때까지 기다리고, 모델이 생성하는 동안에는 새 정보를 받지 못해 단일 스레드처럼 현실을 경험함
  • 이 구조는 사용자의 지식·의도·판단이 모델에 전달되는 폭과, 사람이 모델의 작업을 이해하는 폭을 좁힘
  • Thinking Machines Lab은 모든 모달리티의 실시간 상호작용이 가능해야 이 병목을 해결할 수 있으며, 사람이 AI 인터페이스에 맞추는 대신 AI가 사람의 방식에 맞춰야 한다고 봄
  • 대부분의 기존 AI 모델은 끊김, 멀티모달, 동시성을 흉내 내기 위해 여러 컴포넌트를 붙이는 하네스를 사용하지만, The Bitter Lesson에 따르면 수작업 시스템은 일반 능력의 확장에 밀릴 수 있음
  • 상호작용성이 지능과 함께 확장되려면 모델 내부 기능이어야 하며, 모델을 키우면 더 똑똑해질 뿐 아니라 더 나은 협업자가 되어야 함

모델 내부 상호작용이 여는 기능

  • 자연스러운 대화 관리

    • 모델은 화자가 생각 중인지, 발화를 넘기는지, 스스로 고치는지, 응답을 유도하는지 암묵적으로 추적함
    • 별도의 대화 관리 컴포넌트 없이 이런 판단을 처리함
  • 음성·시각 기반 개입

    • 모델은 사용자가 말을 끝냈을 때만 반응하지 않고, 문맥에 따라 필요한 순간에 끼어들 수 있음
    • 사용자가 틀린 말을 할 때 끊거나, 코드에 버그를 썼을 때 시각 단서를 보고 알려주는 방식이 가능함
  • 동시 발화

    • 사용자와 모델이 동시에 말할 수 있으며, 실시간 번역 같은 상황에서 유용함
  • 시간 인식

    • 모델은 경과 시간을 직접 인식하며, 특정 시간 간격에 맞춰 말하거나 사용자의 행동 시간을 측정하는 과제를 다룰 수 있음
  • 도구 호출·검색·생성 UI 동시 실행

    • 모델은 사용자와 말하고 듣는 동안 동시에 검색, 웹 브라우징, UI 생성을 수행할 수 있음
    • 결과가 준비되면 대화 흐름에 맞춰 다시 엮어 넣음
    • 긴 실제 세션에서는 이런 기능이 계속 함께 일어나며, 프롬프트를 보내는 느낌보다 협업하는 느낌에 가까워짐

접근 방식

  • 시간 정렬 마이크로 턴

    • Interaction Model은 연속 입력·출력 스트림을 마이크로 턴으로 나누고, 시간을 기준으로 상호작용을 구성함
    • 턴 기반 모델은 교대로 이어지는 토큰 시퀀스를 보지만, 시간 인식 Interaction Model은 연속 마이크로 턴 스트림을 보므로 침묵, 겹침, 끼어들기가 모델 문맥에 남음
    • 모델은 사용자와 지속적인 양방향 교환 상태를 유지하며, 지각과 응답을 동시에 수행함
    • 로보틱스와 자율주행은 물리 세계의 요구 때문에 실시간 동작을 전제로 하며, Moshi, PersonaPlex, nemotron-voicechat, Seeduplex 같은 오디오 풀듀플렉스 모델도 양방향·연속 상호작용의 예임
  • 시스템 구성

    • 시스템은 실시간 존재감을 유지하는 시간 인식 Interaction Model과, 지속적 추론·도구 사용·장기 작업을 맡는 비동기 Background Model로 구성됨
    • 더 깊은 추론이 즉시 생성될 수 없을 때 Interaction Model이 Background Model에 위임함
    • 위임 중에도 Interaction Model은 계속 사용자 앞에 남아 후속 질문에 답하고, 새 입력을 받고, 대화 맥락을 유지함
    • Background Model의 결과는 생성되는 대로 스트리밍되며, Interaction Model이 사용자의 현재 행동에 맞는 순간에 대화에 통합함
    • 두 시스템은 문맥을 공유하며, 사용자는 비추론 모델 수준의 응답 지연 안에서 추론 모델의 계획, 도구 사용, 에이전트 워크플로를 함께 활용할 수 있음
    • Background Model과 Interaction Model은 모두 지능을 갖추며, Interaction Model 단독으로도 상호작용 및 지능 벤치마크에서 경쟁력 있는 성능을 냄
  • Interaction Model 구조

    • 설계의 출발점은 본질적으로 실시간인 연속 오디오와 비디오이며, 텍스트는 기다릴 수 있지만 실시간 대화는 기다릴 수 없음
    • 모델은 텍스트, 오디오, 비디오의 임의 부분집합을 입력으로 받고 텍스트와 오디오를 예측함
    • 200ms 분량의 입력 처리와 200ms 분량의 출력 생성을 계속 교차시키는 마이크로 턴으로 동작함
    • 완성된 사용자 턴을 소비하고 완성된 응답을 생성하는 대신, 입력 토큰과 출력 토큰을 모두 스트림으로 처리함
    • 이 방식은 여러 입력·출력 모달리티의 거의 실시간 동시성을 가능하게 하며, 모델이 지켜야 하는 인공적 턴 경계를 없앰
    • 기존 실시간 시스템 다수는 턴 기반 모델을 실시간처럼 보이게 하려고 음성 활동 감지(VAD) 같은 하네스로 턴 경계를 예측함
    • 이런 하네스 컴포넌트는 모델 자체보다 지능이 낮아, 능동적 끼어들기나 시각 단서 반응 같은 상호작용 모드를 제한함
    • Interaction Model에서는 이런 상호작용 모드가 특수 하네스가 아니라 모델이 수행할 수 있는 특수 사례가 되고, 모델 크기와 훈련 데이터 확장에 따라 품질이 개선될 수 있음
  • 인코더 없는 조기 융합

    • 오디오와 비디오를 큰 독립 인코더로 처리하는 대신 최소 전처리를 사용하는 구조를 선택함
    • 많은 옴니모달 모델은 Whisper 유사 인코더나 TTS 유사 디코더를 별도로 훈련해야 하지만, 이 모델은 오디오 신호를 dMel 형태로 받아 가벼운 임베딩 레이어로 변환함
    • dMel은 Bai, et al. 2024를 따름
    • 이미지는 40x40 패치로 나눈 뒤 hMLP로 인코딩함
    • 오디오 디코더에는 flow head를 사용함
    • 모든 컴포넌트는 트랜스포머와 함께 처음부터 공동 훈련됨
  • 추론 최적화

    • 추론 시 200ms 청크는 작은 크기의 prefill과 decode가 자주 필요하고, 각 단계가 엄격한 지연 조건을 만족해야 함
    • 기존 LLM 추론 라이브러리는 작은 prefill이 빈번한 상황에 최적화되어 있지 않아 턴마다 오버헤드가 큼
    • 이를 위해 streaming session을 구현해, 클라이언트가 각 200ms 청크를 별도 요청으로 보내면 추론 서버가 GPU 메모리의 지속 시퀀스에 청크를 이어 붙임
    • 이 방식은 잦은 메모리 재할당과 메타데이터 계산을 피하며, 해당 기능의 한 버전을 SGLang에 upstream
    • 양방향 서빙에서 나타나는 shape와 지연을 기준으로 커널도 최적화함
    • MoE 커널에는 표준 grouped gemm 대신 PyTorchCursor의 선행 작업처럼 gather+gemv 전략을 사용함
  • Trainer-Sampler 정렬

    • 비트 단위 trainer-sampler alignment가 훈련 안정성과 시스템 컴포넌트 디버깅에 유용했음
    • batch-invariant kernels를 구현했으며, 전체 성능 오버헤드는 5% 미만임
    • All-reduce와 reduce-scatter에는 NVLS를 사용해 Blackwell에서 결정적인 저지연 통신 커널을 구현함
    • 이 커널은 Sequence Parallelism과 Tensor Parallelism처럼 서로 다른 병렬화 전략 사이에서도 비트 단위 정렬을 달성함
    • Attention의 주요 과제는 Split-KV이며, 일반적으로 decode와 prefill 사이 누적 순서 불일치를 만들 수 있음
    • decode와 prefill 사이에서 일관되게 split을 선택하면 누적 순서를 유지할 수 있으며, 예시로 SM을 4096 토큰 단위로 left-aligned 처리해 prefill과 decode 양쪽에서 효율을 얻을 수 있음
  • 두 모델의 조율

    • Interaction Model이 위임할 때는 독립 쿼리가 아니라 전체 대화를 포함한 풍부한 문맥 패키지를 보냄
    • Background Model의 결과는 생성되는 대로 돌아오며, Interaction Model이 갑작스러운 문맥 전환이 아니라 사용자 현재 행동에 맞는 순간에 이를 대화에 엮음
  • 안전성

    • 실시간 상호작용은 턴 기반 교환과 다른 방식으로 안전성을 압박하므로, 작업은 모달리티에 맞는 거절장기 대화 견고성에 집중됨
    • 음성 거절이 구어체로 자연스럽게 들리도록 TTS 모델로 허용되지 않는 주제 범위의 거절 및 과잉 거절 훈련 데이터를 생성함
    • 거절 경계는 자연스러운 표현을 선호하되 단호함을 낮추지 않도록 보정됨
    • 긴 speech-to-speech 대화에서 견고성을 높이기 위해 자동 레드팀 하네스로 다중 턴 거절 데이터를 생성함
    • 텍스트 기반 거절과의 행동 유사성도 가깝게 유지함

벤치마크와 평가

  • 지능과 상호작용성

    • 모델 이름은 TML-Interaction-Small이며, 강한 지능·지시 따르기와 상호작용성을 함께 갖춘 첫 모델로 제시됨
    • 상호작용 품질은 FD-bench로 측정함
    • FD-bench v1.5는 사전 녹음된 오디오가 주어졌을 때 모델이 특정 시점에 응답해야 하며, 사용자 끼어들기, 맞장구, 다른 사람과의 대화, 배경 발화 상황에서 모델 행동을 측정함
    • 지능은 지능과 지시 따르기를 추적하는 일반 벤치마크인 Audio MultiChallenge로 측정함
    • TML-Interaction-Small은 FD-bench V1 턴테이킹 지연에서 0.40초를 기록해 표에 있는 비교 모델보다 낮은 지연을 보임
    • FD-bench V1.5 평균 점수는 77.8로, 비교 대상인 GPT-realtime-2.0, GPT-realtime-1.5, Gemini-3.1-flash-live, Qwen 3.5 OMNI-plus-realtime보다 높음
    • FD-bench V3 Audio+Tools에서는 Background Agent 활성화 기준 응답 품질 82.8% / Pass@1 68.0% 를 기록함
    • QIVD Video+Audio 정확도는 54.0% 로, 일부 비교 모델보다 낮거나 비슷함
    • Audio MultiChallenge APR은 43.4% 이며, GPT-realtime-2.0 xhigh의 48.5%보다는 낮지만 instant 모델들보다 높음
    • BigBench Audio는 Background Agent 활성화 기준 75.7 / 96.5로 보고됨
    • IFEval은 VoiceBench Audio에서 82.1%, Text에서 89.7% 를 기록함
    • Harmbench 텍스트 거절률은 99.0%
  • 기존 평가가 포착하지 못하는 상호작용 차원

    • 기존 상호작용 벤치마크는 모델에서 관찰되는 질적 도약을 충분히 포착하지 못해, 시간 인식, 동시 발화, 시각 능동성을 재는 내부·개조 평가가 추가됨
  • 시간 인식과 동시 발화

    • 턴 기반 모델과 대화 관리 시스템은 정확한 시간 추정이나 동시 발화를 지원하지 않음
    • 예시 과제는 “1마일을 달리는 데 얼마나 걸렸나”, “내 발음을 듣는 즉시 고쳐 달라”, “이 함수를 쓰는 데 얼마나 걸렸나” 같은 형태임
    • TimeSpeak은 모델이 사용자가 지정한 시간에 맞춰 말하기를 시작하고 올바른 내용을 말할 수 있는지 테스트함
    • 예시는 “호흡 연습을 하고 싶으니 멈추라고 할 때까지 4초마다 들이쉬고 내쉬라고 알려 달라”임
    • CueSpeak은 적절한 순간에 의미적으로 올바른 응답을 말하는지 테스트함
    • 데이터는 전체 점수를 얻기 위해 모델이 사용자와 동시에 말해야 하도록 구성됨
    • 예시는 “내가 코드스위칭해서 다른 언어를 쓸 때마다 원래 언어의 올바른 단어를 말해 달라”임
    • 두 벤치마크는 각 예제마다 기대 의미 응답과 시간 창을 하나씩 가지며, LLM judge가 의미와 타이밍을 모두 만족할 때만 정답으로 채점함
  • 시각 능동성

    • 현재 상용 실시간 API는 주로 오디오 기반 대화 관리 하네스로 턴을 감지하며, 시각 세계가 바뀌었을 때 스스로 말할 시점을 선택하지 못함
    • StreamBridge, Streamo, StreamingVLM, MMDuet2는 스트리밍 비디오 입력에서 언제 텍스트를 출력할지 다룸
    • 이런 텍스트 출력 연구는 발화에 지속 시간이 있고, 사용자와 겹칠 수 있으며, 턴테이킹·끼어들기·맞장구와 조율되어야 하는 음성 출력 상호작용의 제약을 다루지 않음
    • AURA는 VideoLLM이 텍스트를 내보내거나 침묵할 시점을 결정하는 구조에 ASR/TTS 데모를 붙인 형태이며, Thinking Machines Lab의 모델은 speech-native이고 full-duplex라는 차이가 있음
  • 시각 능동성 평가

    • RepCount-A는 반복 동작 비디오를 온라인 카운팅 과제로 개조함
    • 모델에는 “{action} 반복 횟수를 세어 달라”는 오디오 지시와 비디오가 스트리밍되며, 정답의 끝에서 두 번째 반복 이후 모델이 말한 마지막 숫자가 정답에서 1회 이내인지로 채점함
    • 이 과제는 연속 시각 추적과 제때 세기를 측정함
    • ProactiveVideoQA는 특정 순간에 답을 알 수 있게 되는 질문이 포함된 비디오로 구성됨
    • 질문을 오디오로 스트리밍한 뒤 비디오를 보내며, 자막이 있으면 비디오에 태우고 입력 비디오는 음소거해 시각 능동성을 강조함
    • 평가는 논문의 turn-weighted PAUC@ω=0.5 지표를 0~100으로 스케일해 턴과 카테고리 평균을 내며, 계속 침묵하면 25.0점을 받음
    • 높은 점수에는 올바른 답을 올바른 시점에 말하는 것이 필요하고, 틀린 답은 페널티를 받음
    • Charades는 표준 시간적 행동 위치 추정 벤치마크로, 각 비디오는 라벨링된 시간 구간에서 발생하는 행동을 포함함
    • 모델은 “사람이 {action}을 시작하면 ‘start’라고 말하고 멈추면 ‘Stop’이라고 말하라”는 오디오 지시와 비디오 스트림을 받으며, 예측 구간과 참조 구간의 temporal IoU로 채점됨
  • 현재 모델들의 한계

    • 기존 모델은 이런 시간 인식, 동시 발화, 시각 능동성 과제를 의미 있게 수행하지 못함
    • 완전성을 위해 GPT Realtime-2 minimal 결과가 보고되지만, thinking high 모델을 포함한 모든 평가 모델은 비슷하거나 더 나쁘며 침묵하거나 잘못된 답을 냄
    • 상호작용성은 향후 중요한 연구 분야로 보고 있으며, Interaction Model과 인간-AI 협업 평가 프레임워크 등을 위한 연구 보조금 계획이 예고됨

한계와 공개 계획

  • 긴 세션

    • 연속 오디오와 비디오는 문맥을 빠르게 누적함
    • streaming-session 설계는 짧고 중간 길이의 상호작용을 잘 처리하지만, 매우 긴 세션에는 신중한 문맥 관리가 필요함
  • 컴퓨트와 배포

    • 낮은 지연으로 오디오와 비디오를 스트리밍하려면 안정적인 연결이 필요함
    • 좋은 연결이 없으면 경험이 크게 악화됨
    • 시스템 신뢰성을 높이고 지연된 프레임에 더 견고하도록 모델을 훈련하면 개선 여지가 있음
  • 정렬과 안전

    • 실시간 인터페이스는 정렬과 안전성 모두에 새로운 연구 영역을 열며, 피드백 수집과 연구 보조금 검토가 진행 중임
  • 모델 크기 확장

    • 현재 TML-Interaction-Small은 276B 파라미터 MoE이며, 활성 파라미터는 12B
    • 모델 스케일이 커지면 상호작용성도 개선될 것으로 기대하지만, 더 큰 사전훈련 모델은 현재 이 설정에서 서빙하기에 너무 느림
    • 더 큰 모델은 올해 후반 공개할 계획임
  • Background Agent 개선

    • 주요 초점은 실시간 상호작용성이지만, 에이전트 지능도 필수 역량임
    • 에이전트 지능을 프런티어 수준으로 끌어올리는 것 외에도, Background Agent가 Interaction Model과 함께 일하는 방식은 아직 초기 단계임
  • 공개 일정

    • 향후 몇 달 안에 피드백 수집을 위한 제한적 연구 프리뷰를 열고, 올해 후반 더 넓게 공개할 예정임
    • 채용 링크는 join us이며, 의견은 interaction@thinkingmachines.ai로 받을 예정임
Read Entire Article